阿里巴巴研究型实习生-1688-Agentic AI/RL实习生
任职要求
1. 深入理解 LLM/RL/Agent 领域知识,熟悉常见的 Alignment 算法(如 DPO/PPO/GRPO/DAPO 等); 2. 熟悉前沿 Agentic RL 算法与框架,参与过实际项目的开发与…
工作职责
1. Agent 基础设施优化:在电商垂域开展大模型 Agentic AI 的关键要素构建与优化,涵盖环境工具建设(Environment/Tools)、高质量数据合成及 Reward Modeling; 2. 后训练算法攻坚:优化 Post-training 算法(如 GRPO/PPO/SearchR1 等),提升模型在复杂环境下的工具使用(Tool-use)、规划(Plan)、深度推理(Deep Research)及报告生成能力; 3. 全流程模型迭代:参与千亿级模型的 Agentic 能力全流程优化,包括 CPT (Continued Pre-training)、SFT、Post-train 及 Multi-agent RL,负责复现业界前沿工作并探索提出新算法。
本课题的研究目标是打造行业领先的多语言能力强化的大语言模型,结合业务海量的多语言互译语料,以及平台生活化特色的笔记评论数据,利用数据合成、RL冷启训练、SFT和RLHF等技术,实现: 1、在小红书多语言大模型翻译场景取得领先效果; 2、多语言场景下,AI搜索的检索和生成技术。
团队介绍:字节跳动 Seed 团队成立于 2023 年,致力于寻找通用智能的新方法,追求智能上限。团队研究方向涵盖 LLM、语音、视觉、世界模型、基础架构、AI Infra、下一代 AI 交互等,在中国、新加坡、美国等地设有实验室和岗位。 Seed 团队在 AI 领域拥有长期愿景与决心,坚持深耕基础,期望成为世界一流的 AI 研究团队,为科技和社会发展作出贡献。目前团队已推出业界领先的通用大模型以及前沿的多模态能力,支持豆包、扣子、即梦等超过 50 个应用场景。 1、LLM推理和规划;在整个开发过程中增强LLM推理和规划,包括数据采集、模型评估、预训练、SFT、奖励建模和强化学习,以提高LLM的整体性能; 2、通过重写、扩充和生成等方法合成大规模、高质量的数据;如指令调优、偏好对齐、模型优化以提高LLM在各个阶段(预训练、SFT、RLHF)的能力; 3、通过RLHF/RLAIF进行偏好对齐,探索全新的训练范式,优化大模型在文本、图像、语音等多模态上的表现; 4、研究和实施稳健的评估方法,以评估LLM在各个阶段的表现,揭示其能力的潜在机制和来源,并利用这种理解来推动模型改进; 5、探索和优化有效的LLM训练方法(如主动学习、课程学习)和目标,以完善缩放规律,实现卓越的模型性能; 6、相关应用落地,包括内容创作、逻辑推理、代码生成等,深入研究和探索大模型在未来生活中的更多使用场景。
1、负责大模型研发的全流程工作,包括但不限于数据、训练、评测、推理部署; 2、LLM算法应用研究与算法落地工作,包括但不限于语言LLM、多模态大模型,VLM,Agents/SFT/RL等相关前沿技术; 3、持续探索在各种用户场景下,利用AI能力增强业务迭代效果; 4、深度参与产品研发项目,和产品经理/业务研发同学密切配合,提高项目整体收益。
随着大模型与生成式 AI 技术的快速发展,在多模态和复杂场景下让 Agent 具备更强大的决策和执行能力成为未来的重要趋势。OpenAI Operator 通过结合强化学习的多步决策机制与大模型的理解、推理优势,可在多种任务场景(如 Computer Use、网页浏览等)中实现高效且灵活的自动化决策和任务执行。本课题将聚焦多样化业务场景和复杂环境下的自适应策略设计、规划与推理,进一步提升 Agent 在真实应用中的表现。 主要研究内容包括但不限于: 1) 多模态与多步决策:设计并构建包含多模态信息、计算机交互、网络搜索、函数调用等多维度的复杂环境,研究如何利用端到端强化学习来进行多步决策,从而完成更具挑战的任务。 2) 策略学习与优化:在多种强化学习算法(如 PPO、GRPO 等)的框架下,探索高效的策略优化方法,为 Operator Agent 提供强大的决策和执行能力。 3) 规划与推理:借助大模型的知识与推理能力,设计可解释的多步规划算法;研究如何与外部工具或知识库交互,以扩展 Agent 的能力边界并提升其在真实环境中的自动化决策表现。