阿里巴巴研究型实习生-1688-多模态强化学习算法工程师
任职要求
1. 计算机、人工智能或数学相关专业博士,有扎实的计算机知识和LLM功底。 2. 掌握Qwen/DeepSeek-R1等LLM训练方式,常见PPO/GRPO/Self-Play等强化学习算法原理,有RL实操经验。 3. 熟悉DeepResearch/Manus等Agent产品技术架构,有实际参与研发Agentic模型经验。 4. 加分项:有多篇顶会paper和知名竞赛top名次,或参与知名开源项目。
工作职责
1. 负责提升电商B2B场景下,多模态大模型对用户超长个性化上下文建模能力。 2. 负责基于强化学习提升大模型多步骤工具调用能力,实现亿人亿面用户仿真能力。 3. 构建大模型的角色扮演能力,构建高保真用户模拟器及评估体系,提升Agent训练效率。 4. 负责LLM的前沿技术探索,沉淀可复用的垂域Agent体系化构建方案。
1、算法研究: 围绕大规模/AIGC场景研究业界算法动态,实践相关算法,对基础的算法效果和能力进行改进。 2、模型优化:结合量化剪枝等相关算法优化技术,降低推理延时及成本,突破新技术在新场景的应用边界。 3、工程优化: 拥抱开源生态,保持洞察。充分挖掘系统和数据的优势,结合操作系统、分布式、芯片特性探索的工程落地可能。 4、成果交付: 从业务出发,重点面向文本、语音、图像等多种模态、构建高效的SDK或智能体方案,为业务提供出色、稳定的技术支持。
随着AI下半场的到来,传统的评测范式已经无法适配持续提升的模型能力,针对ChatBot模型的Arena评测的有效性也遭到质疑,如何面向现阶段以及未来的模型能力进行科学有效的评估本身也是个极具挑战和价值的研究方向。OpenAI研究者也表示,AI接下来比拼的不是训练,而是“如何定义并评估真正有用的任务”。 在这样的背景下,美团大模型评测团队以指引通往AGI的道路为目标,深耕模型评测研究,系统性的理解大模型当前能力水平及未来技术发展方向,并以此为基础完善模型评测能力矩阵。团队工作方向包括但不限于:①构建科学有效的评测方案,为现阶段大模型提供有效的评测和分析手段,并面向未来模型储备评测技术,包括人机协同评测、产品化隐式评测方案、全模态交互式评测方案等;②结合训练和评测,对模型的能力进行建模及深入的理解和研究,包括能力体系构建、训练阶段分析、模型能力/问题溯源等;③探索模型能力边界,发现当前模型训练范式的局限性,寻求模型能力突破。 本岗位涉及的方向包括: 1. Agent评测构建与方案探索,包括但不限于:通用模型的Agent能力评测与探索,Computer Use、Code Agent、通用搜索等产品级Agent的评测方案和分析。 2. 长周期人机协作与Agent能力边界探索,包括但不限于:Agent的异步交互、适时思考、记忆管理、自主学习等能力的评测方案及实践探索。
参与构建新一代电商语音认知引擎,通过大模型技术实现语音交互与商品理解的双向增强,打造全球领先的电商领域语音智能中枢,支撑淘宝亿级DAU场景的语音搜索、智能导购等核心业务。 1. 负责大模型语音模态的设计、开发和优化,包括但不限于语音音频数据清洗、模型设计、训练策略等方面的研究与应用。 2. 参与语音识别、语音合成、语音理解等相关大模型语音模态能力的建设,提升跨模态整体效果。 3. 跟踪、探索大模型方向,将各模态的SOTA能力集成到模型底座上,提升识别以及搜索能力,提升团队技术先进性。