logo of antgroup

蚂蚁金服蚂蚁集团-大语言模型强化学习算法专家-杭州/上海/北京

社招全职技术类-算法地点:北京 | 上海 | 杭州状态:招聘

任职要求


1. 硕士及以上学历,计算机科学或相关专业背景
2. 有大模型相关的研究经历,在post-training方向具备一定的训练经验,熟悉奖励模型建模,PPO/REINFORCE/RLOO等主流强化学习算法
3. 具备扎实的算法工程实现能力,熟悉Python编程语言和PyTorch深度学习框架,熟悉DeepSpeed/Megatron等主流分布式训练框架
4. 具备良好的分析和问题解决能力、优秀的工程素养,能够独立思考和解决实际问题
5. 具备较强的团队合作能力和沟通能力,能够与工程团队、业务团队、产品团队和其他技术团队紧密配合
加分项:
1. 在语言大模型机器学习领域有科研或实践经验,在国际顶级会议/期刊发表过高质量论文
2. 在大数据处理、大规模分布式计算、分布式训练等领域有科研或实践经历

工作职责


1. 负责研发大语言模型强化学习算法,提升大模型在强化学习阶段的训练效率,以及提升大模型在数学、代码等自然科学领域的推理能力
2. 负责研发奖励和评价模型,包括细粒度的过程监督和奖励建模,覆盖复杂推理、指令遵循等各种任务
3. 参与后训练和推理阶段的Scaling Law研究,包括奖励模型训练、强化学习训练、推理阶段的Scaling Law
包括英文材料
学历+
大模型+
强化学习+
算法+
Python+
PyTorch+
深度学习+
DeepSpeed+
Megatron+
机器学习+
相关职位

logo of tongyi
社招3年以上技术类-开发

我们正在寻找充满激情的大模型应用开发者,共同构建大模型应用新开发范式,积极推进大模型应用落地新范式,拥抱开源社区,探索前沿研究方向。 工作内容包括: 1. 探索超前沿大语言模型强化学习算法和Agentic应用范式。 2. 参与大模型应用开发平台架构设计,积极推进MCP等开源协议赋能企业级开发平台。 3. 构建大模型轻应用,推进大模型在金融/医疗/教育等核心场景落地和赋能。

更新于 2025-07-31
logo of xiaohongshu
社招3-5年大模型

【团队介绍】 小红书技术中台AI应用算法团队专注于图文、视频等场景下的大语言模型、多模态模型、扩散模型等技术的落地应用,通过标准化的AI技术能力支持公司各业务团队,提升技术资源利用率和业务创新迭代速度,持续优化技术研发成本并提升大规模AI应用的系统稳定性。团队兼具活跃的技术氛围、一线业务的真实挑战和相对充足的计算资源,欢迎有志于AGI、AIGC等方向的同学加入。 1、跟踪大语言模型、多模态、强化学习等算法的最前沿进展,将相应技术赋能到小红书实际的业务场景中,包括社区,商业化,交易等,持续推动AGI在业务场景下的落地应用; 2、基于成熟的AI平台服务,构建完善的AI原生应用和X+AI应用,包括如智能助理、知识问答、深度研究等,打造具有核心用户价值的热点应用; 3、探索大语言模型、多模态模型、扩散模型等在搜广推场景的落地方案。

更新于 2025-10-18
logo of xiaohongshu
社招3-5年大模型

【团队介绍】 小红书技术中台AI应用算法团队专注于图文、视频等场景下的大语言模型、多模态模型、扩散模型等技术的落地应用,通过标准化的AI技术能力支持公司各业务团队,提升技术资源利用率和业务创新迭代速度,持续优化技术研发成本并提升大规模AI应用的系统稳定性。团队兼具活跃的技术氛围、一线业务的真实挑战和相对充足的计算资源,欢迎有志于AGI、AIGC等方向的同学加入。 1、跟踪大语言模型、多模态、强化学习等算法的最前沿进展,将相应技术赋能到小红书实际的业务场景中,包括社区,商业化,交易等,持续推动AGI在业务场景下的落地应用; 2、基于成熟的AI平台服务,构建完善的AI原生应用和X+AI应用,包括如智能助理、知识问答、深度研究等,打造具有核心用户价值的热点应用; 3、探索大语言模型、多模态模型、扩散模型等在搜广推场景的落地方案。

更新于 2025-10-18
logo of antgroup
社招3年以上技术类-开发

1. 负责大模型分布式训练和推理研发,持续优化提升大模型训练框架(基于MegatronLM), 或推理框架(基于sglang 或 vllm) 的性能。 2. 深度参与原生多模态大模型研发,实现 基于MoE的多模态大模型架构 和 训练推理框架协同co-design,实现千亿级模型高效训练

更新于 2025-09-04