【通义】研究型实习生 - 大模型强化学习 (LLM-RL) 基础研究与系统建设

实习阿里巴巴研究型实

我们正在寻找对大模型系统优化充满热情的优秀在读学生，参与大模型后训练阶段（Post-Training）关键系统与架构的前沿研究。你将深度参与千亿级大模型在强化学习训练、推理效率、训推分离架构、智能体（Agent）系统等方面的系统级优化工作，探索高MFU、低延迟、高吞吐的下一代AI基础设施。如果你热爱系统与AI的交叉领域，希望在真实超大规模场景中打磨技术，欢迎加入我们，与顶尖研究者和工程师共同推动大模型系统的技术边界！研究方向与实习内容：你将从以下四个核心方向中选择1-2个深入参与，开展系统性研究与工程实现： 1. 后训练 MFU（Model FLOPs Utilization）优化研究SFT、RLHF、DPO等后训练任务中的计算效率瓶颈；设计高MFU的训练策略与系统支持，优化计算密度（如序列填充、混合批次、梯度累积等）；探索算力利用率提升路径，结合通信、显存、计算进行端到端建模与优化。 2. 强化学习推理框架优化针对RLHF中大量采样推理的需求，优化推理延迟与吞吐（如Speculative Decoding、KV Cache复用、动态批处理）；设计轻量、高效的推理引擎，支持多轮对话、长上下文、流式生成等复杂场景；探索训练-采样协同优化，降低推理端对训练整体效率的制约。 3. 强化学习训推分离架构优化构建解耦的“训练-采样”系统架构，支持高并发采样与异步训练更新；研究采样集群与训练集群之间的资源调度、数据同步与负载均衡机制；实现弹性扩缩容、故障恢复、版本管理等系统能力，提升整体稳定性与可扩展性。 4. Agent 框架优化与系统支撑研究面向复杂任务的Agent执行框架，优化工具调用、状态管理、多步规划的系统性能；构建低延迟、高并发的Agent运行时环境，支持大规模仿真与自动评估；探索Agent工作流的可复现性、可观测性与调试支持，提升研发效率。

更新于 2026-05-06北京|杭州

研究型实习生-大模型高效强化学习系统研究

实习阿里巴巴研究型实

我们正在寻找对大模型系统优化充满热情的优秀在读学生，参与大模型后训练阶段（Post-Training）关键系统与架构的前沿研究。你将深度参与千亿级大模型在强化学习训练、推理效率、训推分离架构、智能体（Agent）系统等方面的系统级优化工作，探索高MFU、低延迟、高吞吐的下一代AI基础设施。如果你热爱系统与AI的交叉领域，希望在真实超大规模场景中打磨技术，欢迎加入我们，与顶尖研究者和工程师共同推动大模型系统的技术边界！研究方向与实习内容：你将从以下四个核心方向中选择1-2个深入参与，开展系统性研究与工程实现： 1. 后训练 MFU（Model FLOPs Utilization）优化研究SFT、RLHF、DPO等后训练任务中的计算效率瓶颈；设计高MFU的训练策略与系统支持，优化计算密度（如序列填充、混合批次、梯度累积等）；探索算力利用率提升路径，结合通信、显存、计算进行端到端建模与优化。 2. 强化学习推理框架优化针对RLHF中大量采样推理的需求，优化推理延迟与吞吐（如Speculative Decoding、KV Cache复用、动态批处理）；设计轻量、高效的推理引擎，支持多轮对话、长上下文、流式生成等复杂场景；探索训练-采样协同优化，降低推理端对训练整体效率的制约。 3. 强化学习训推分离架构优化构建解耦的“训练-采样”系统架构，支持高并发采样与异步训练更新；研究采样集群与训练集群之间的资源调度、数据同步与负载均衡机制；实现弹性扩缩容、故障恢复、版本管理等系统能力，提升整体稳定性与可扩展性。 4. Agent 框架优化与系统支撑研究面向复杂任务的Agent执行框架，优化工具调用、状态管理、多步规划的系统性能；构建低延迟、高并发的Agent运行时环境，支持大规模仿真与自动评估；探索Agent工作流的可复现性、可观测性与调试支持，提升研发效率。

更新于 2026-03-17北京|杭州

研究型实习生-面向多轮Agentic任务的大模型强化学习优化与奖励归因机制研究

实习阿里巴巴研究型实

专注大语言模型强化学习的研究、探索和开发，具体职责包括： 1、针对多轮Agentic任务场景，开展基于大语言模型（LLM）的强化学习（RL）优化及奖励归因机制研究； 2、设计与实现创新型多轮Agentic RL训练与收敛优化方法，提高训练效率与任务泛化能力； 3、深入探索RL算法在提升智能体泛化性和鲁棒性方面的理论与工程实现，推动算法在实际复杂环境下的稳定应用； 4、推动研究成果在阿里云PAI平台的分布式训练、强化学习等核心产品框架中的集成与落地，支持工业级Agentic AI解决方案的研发和部署； 5、跟踪领域前沿动态，撰写高质量学术论文，申请相关发明专利，并在国际顶级学术会议（NeurIPS、ICLR、AAAI等）或期刊进行成果输出。

更新于 2026-03-17杭州

研究型实习生-强化学习算法和大模型训推架构结合下的强化学习框架加速

实习阿里巴巴研究型实

结合强化学习算法以及大模型训推架构，对强化学习框架进行优化，提升大模型强化学习训练的效率。持续探索RL的前沿方向，实现丰富、便捷的真实环境交互能力。通过冗余生成、投机采样等生成加速技术，动态调度计算资源，协同异构硬件基础设施，极致压缩RL训练的时间消耗。从PPO、GRPO扩展出更丰富的RL算法范式，提升大模型在长思考、复杂推理方面的能力，推进大模型在国内最大的电商场景的业务落地。职位职责包括但不限于： 1. 设计和实现机器学习系统所需要的大规模分布式计算系统，参与机器学习全生命周期（训练、推理、MLOps、CI/CD、AB testing）组件的开发与优化。 2. 构建业界领先的超大规模稀疏训练引擎，通过软硬件协同以及工程算法联合优化，持续榨取高性能异构硬件的性能潜力，不断推高分布式训练的性能天花板。 3. 构建业界先进的多模态、大语言训练引擎，通过持续的分布式训练优化，不断提升算法的训练规模，提升硬件的使用效率。 4. 构建超大规模全流程机器学习平台，覆盖从特征工程、样本构建到模型量化交付，并通过构建SQL计算引擎、分布式特征服务、样本湖等，提升特征样本计算存储效率。 5. 图学习、联邦学习、强化学习等多个AI方向算法工程解决方案的探索和落地。 6. 在机器学习系统的前沿领域（如分布式训练、软硬协同设计等）参与应用驱动的研究。

更新于 2026-06-11北京|杭州

通义研究型实习生 - 大模型强化学习 (LLM-RL) 基础研究与系统建设

任职要求

工作职责