阿里巴巴研究型实习生-1688-Agentic AI/RL实习生
任职要求
1. 深入理解 LLM/RL/Agent 领域知识,熟悉常见的 Alignment 算法(如 DPO/PPO/GRPO/DAPO 等); 2. 熟悉前沿 Agentic RL 算法与框架,参与过实际项目的开发与…
工作职责
1. Agent 基础设施优化:在电商垂域开展大模型 Agentic AI 的关键要素构建与优化,涵盖环境工具建设(Environment/Tools)、高质量数据合成及 Reward Modeling; 2. 后训练算法攻坚:优化 Post-training 算法(如 GRPO/PPO/SearchR1 等),提升模型在复杂环境下的工具使用(Tool-use)、规划(Plan)、深度推理(Deep Research)及报告生成能力; 3. 全流程模型迭代:参与千亿级模型的 Agentic 能力全流程优化,包括 CPT (Continued Pre-training)、SFT、Post-train 及 Multi-agent RL,负责复现业界前沿工作并探索提出新算法。
1、负责游戏AI的算法研究和应用,包括但不限于强化学习、模仿学习等; 2、持续改进算法和框架,开发和完善通用框架和SDK工具,提升游戏AI开发效率; 3、追踪前沿的强化学习技术,探索验证创新场景落地可行性,并能将其转化并落地至实际游戏项目中。
ByteIntern:面向2026届毕业生(2025年9月-2026年8月期间毕业),为符合岗位要求的同学提供转正机会。 团队介绍:抖音集团内容质量与数据服务平台(DOUYIN GROUP CONTENT QUALITY AND DATA SERVICE,简称CQC)是负责抖音集团今日头条、抖音、西瓜等产品内容安全与质量工作的团队,在各产品运营增长方面开展支持工作,为产品线提供数据服务的基础支持。平台下设内容质量中心、数据中心及运营支持中心,在全国10余个城市有业务分布。 1、深入理解AI大模型,了解娱乐AI场景玩法,通过数据挖掘、数据合成、人工构造等方式生产游戏/剧本/故事体验等高质量数据集,对数据生成质量和效率负责; 2、与算法产品团队密切协作,积极提供有针对性的数据合成策略和建议,共同闭环验证数据在模型实验上的有效性,提升数据可用性与价值; 3、通过PE、代码完成数据预处理、分析和清洗,探索更高效的数据生产方式; 4、通过输出和带教,提升数据团队对技术和大语言模型的了解,教授应用技巧,推动团队达成业务目标。
作为研究型实习生,你将加入公司大模型训练加速方向的研究团队,参与超大规模场景下,文本和多模态领域 pre/post/alignment 方向上的高效训练相关的 前沿策略和工程实现工作。该岗位以科研驱动为主,进行理论研究、策略设计、工程原型与实验评估,并鼓励发表顶会/期刊论文与开源贡献。 1、 研究RL场景加速技术,探索前沿的训推分离、梯度压缩、通信压缩、计算压缩 相关技术,改进RL场景不同模型的训练效率,提升e2e吞吐达到业界SOTA水平; 2、 研究前沿的pretrain加速技术,探索不同模态下的 IO/流水调度/算子融合/低精度量化 等加速策略,改进超大规模训练下训练效率,提升MFU; 3、研究大模型训练策略自动寻优技术,通过模型显存、计算、通信 自动化分析和模拟,实现不同模型在不同硬件、不同规模下的训练性能最大化; 4、将研究成果落地为可复现的工程原型,集成/对接业界主流的开源训练框架(megatron/veRL); 5、撰写技术报告与论文,与团队成员及外部学术界保持沟通交流;
