阿里巴巴研究型实习生-1688-多模态强化学习算法工程师
任职要求
1. 计算机、人工智能或数学相关专业博士,有扎实的计算机知识和LLM功底。 2. 掌握Qwen/DeepSeek-R1等LLM训练方式,常见PPO/GRPO/Self-Play等强化学习算法原理,有R…
工作职责
1. 负责提升电商B2B场景下,多模态大模型对用户超长个性化上下文建模能力。 2. 负责基于强化学习提升大模型多步骤工具调用能力,实现亿人亿面用户仿真能力。 3. 构建大模型的角色扮演能力,构建高保真用户模拟器及评估体系,提升Agent训练效率。 4. 负责LLM的前沿技术探索,沉淀可复用的垂域Agent体系化构建方案。
1、探索生成式预估范式在搜索推荐场景的可行性与边界,系统分析生成式模型相较于传统判别式模型在表达能力、泛化性与训练效率上的优劣;设计可扩展的生成式架构,涵盖生成式训练范式、结构优化、以及基于强化学习的排序目标对齐方法,构建具备scale-up潜力的下一代预估模型体系。 2、研究大语言模型(LLM)在电商场景下的个性化CTR/CVR预估应用,探索模态对齐、用户行为链(CoT)建模等技术路径,将LLM的推理能力迁移至用户偏好理解与意图推断,实现更精准的人货匹配与动态兴趣建模。 3、主导大模型预估系统的基础设施建设,涵盖算力友好的算法设计、分布式训练加速、线上低延迟部署、端到端链路优化及计算复杂度控制,推动前沿模型技术在高并发、实时性要求严苛的工业场景中规模化落地。
1、算法研究: 围绕大规模/AIGC场景研究业界算法动态,实践相关算法,对基础的算法效果和能力进行改进。 2、模型优化:结合量化剪枝等相关算法优化技术,降低推理延时及成本,突破新技术在新场景的应用边界。 3、工程优化: 拥抱开源生态,保持洞察。充分挖掘系统和数据的优势,结合操作系统、分布式、芯片特性探索的工程落地可能。 4、成果交付: 从业务出发,重点面向文本、语音、图像等多种模态、构建高效的SDK或智能体方案,为业务提供出色、稳定的技术支持。
随着AI下半场的到来,传统的评测范式已经无法适配持续提升的模型能力,针对ChatBot模型的Arena评测的有效性也遭到质疑,如何面向现阶段以及未来的模型能力进行科学有效的评估本身也是个极具挑战和价值的研究方向。OpenAI研究者也表示,AI接下来比拼的不是训练,而是“如何定义并评估真正有用的任务”。 在这样的背景下,美团大模型评测团队以指引通往AGI的道路为目标,深耕模型评测研究,系统性的理解大模型当前能力水平及未来技术发展方向,并以此为基础完善模型评测能力矩阵。团队工作方向包括但不限于:①构建科学有效的评测方案,为现阶段大模型提供有效的评测和分析手段,并面向未来模型储备评测技术,包括人机协同评测、产品化隐式评测方案、全模态交互式评测方案等;②结合训练和评测,对模型的能力进行建模及深入的理解和研究,包括能力体系构建、训练阶段分析、模型能力/问题溯源等;③探索模型能力边界,发现当前模型训练范式的局限性,寻求模型能力突破。 本岗位涉及的方向包括: 1. Agent评测构建与方案探索,包括但不限于:通用模型的Agent能力评测与探索,Computer Use、Code Agent、通用搜索等产品级Agent的评测方案和分析。 2. 长周期人机协作与Agent能力边界探索,包括但不限于:Agent的异步交互、适时思考、记忆管理、自主学习等能力的评测方案及实践探索。