高德地图科研实习-大模型后训练强化学习方向
任职要求
- 我们希望你: 1)研一及以上同学(优秀的本科生也可以),可以实习6个月以上,长期更佳。 2)…
工作职责
- 岗位职责:构建适用于高德AI Agent的大模型技术体系,包括 SFT,RM,RL/Reasoning、Agentic RL 等能力的建设。 - 组内情况:组内成员在各类顶会上发表论文多篇,有完善的指导及充足的GPU资源,实习优秀者可在组内转正。
1、参与智能创作Agent核心系统的研发与迭代,学习如何融合多模态理解、交互与生成能力,探索AI在内容创作中的应用场景; 2、协助搭建创作领域的多模态认知体系,结合行业知识库,理解镜头美学、剪辑节奏、叙事逻辑等要素,支持图片/视频/音乐生成模型的优化与应用; 3、参与大模型后训练相关探索(如SFT、RLHF 等),通过高质量数据合成、指令设计、偏好对齐等方法,提升Agent的长推理和复杂规划能力; 4、参与Agent相关核心模块的开发与实验,包括任务编排、工具调用、多Agent协作、长期记忆和个性化能力探索。
作为蚂蚁集团的核心大模型部门,我们专注大语言模型的技术攻坚与创新突破,致力于推动通用人工智能(AGI)技术的实质性进展。团队聚焦LLM后训练方向,包括模型对齐、高阶推理、安全可控等,持续完善智能系统的认知深度与可靠性。目前部门拥有数万张显卡资源,并且仍在持续加大投入,为探索模型能力边界提供坚实的保障。在追求AGI的道路上,我们始终秉持蚂蚁集团的技术务实基因,通过扎实的底层创新推动智能技术的产业落地。 1. 研发万亿参数LLM基模架构:大语言模型(LLM)后训练(post-train)全流程优化,设计高效分布式训练方案,进行十万亿token级别的超大规模训练,包括但不限于通用能力提升、安全对齐等方向; 2. 奥赛级别的LLM各项能力建设,迈向真正的AGI:前沿的高效强化学习算法设计,实现并应用SFT/RLHF/DPO/PPO/GRPO等算法,研发训推一体的大规模强化学习训练框架,探索多目标奖励模型、过程监督等前沿技术,提升模型在指令遵循、逻辑推理、多任务泛化等方面的性能; 3. 扩大工业与学术影响力:开源LLM模型及核心技术,发表顶会论文,贡献核心开源项目。
蚂蚁集团技术研究院致力于做有用、有想象力的科研,负责探索下一代前沿科技,帮助蚂蚁构建更具竞争力和可持续性的技术生态。 蚂蚁技术研究院数据智能实验室专注于通过下一代数据创新深化AGI前沿,这里汇聚了一群对人工智能充满热情的极客、科学家和工程师,核心成员累计学术引用量过万。 实验室拥有顶级资源支持包括但不限于海量高质量训练数据(万亿级Token,覆盖多领域、多模态);超大规模算力(万卡级GPU集群,支持分布式训练与高效调优);与全球顶尖AI团队(如DeepMind、OpenAI等)的深度合作机会等。 你将参与: - 下一代AGI大模型研发 a. 探索更高效的训练架构 b. 突破现有模型的推理与泛化能力 c. 研究多模态、因果推理、强化学习等前沿方向 - 构建新数据范式 a. math/code数据饱和后的后训练时代数据 b. 合成数据,突破全球可用数据上限 c. 多模态数据,构建空间数据与跨模态任务的核心引擎 - 技术创新与开源 a. 撰写高质量技术论文,推动学术边界 b. 构建开源工具链,降低AGI研发门槛 c. 与全球开发者社区互动,分享你的成果
蚂蚁集团技术研究院致力于做有用、有想象力的科研,负责探索下一代前沿科技,帮助蚂蚁构建更具竞争力和可持续性的技术生态。 蚂蚁技术研究院数据智能实验室专注于通过下一代数据创新深化AGI前沿,这里汇聚了一群对人工智能充满热情的极客、科学家和工程师,核心成员累计学术引用量过万。 实验室拥有顶级资源支持包括但不限于海量高质量训练数据(万亿级Token,覆盖多领域、多模态);超大规模算力(万卡级GPU集群,支持分布式训练与高效调优);与全球顶尖AI团队(如DeepMind、OpenAI等)的深度合作机会等。 你将参与: - 下一代AGI大模型研发 a. 探索更高效的训练架构 b. 突破现有模型的推理与泛化能力 c. 研究多模态、因果推理、强化学习等前沿方向 - 构建新数据范式 a. math/code数据饱和后的后训练时代数据 b. 合成数据,突破全球可用数据上限 c. 多模态数据,构建空间数据与跨模态任务的核心引擎 - 技术创新与开源 a. 撰写高质量技术论文,推动学术边界 b. 构建开源工具链,降低AGI研发门槛 c. 与全球开发者社区互动,分享你的成果