阿里云研究型实习生-大模型高效强化学习系统研究

实习兼职阿里云研究型实习生2026-01-20地点：北京状态：招聘

扫码手机上打开

任职要求

1. 在读博士研究生，计算机相关专业；
2.有大模型后训练或者强化学习相关经验和工作背景…

登录查看完整任职要求

微信扫码，1秒登录

工作职责

我们正在寻找对大模型系统优化充满热情的优秀在读学生，参与大模型后训练阶段（Post-Training）关键系统与架构的前沿研究。你将深度参与千亿级大模型在强化学习训练、推理效率、训推分离架构、智能体（Agent）系统等方面的系统级优化工作，探索高MFU、低延迟、高吞吐的下一代AI基础设施。
如果你热爱系统与AI的交叉领域，希望在真实超大规模场景中打磨技术，欢迎加入我们，与顶尖研究者和工程师共同推动大模型系统的技术边界！

研究方向与实习内容：
你将从以下四个核心方向中选择1-2个深入参与，开展系统性研究与工程实现：

1. 后训练 MFU（Model FLOPs Utilization）优化
研究SFT、RLHF、DPO等后训练任务中的计算效率瓶颈；
设计高MFU的训练策略与系统支持，优化计算密度（如序列填充、混合批次、梯度累积等）；
探索算力利用率提升路径，结合通信、显存、计算进行端到端建模与优化。

2. 强化学习推理框架优化
针对RLHF中大量采样推理的需求，优化推理延迟与吞吐（如Speculative Decoding、KV Cache复用、动态批处理）；
设计轻量、高效的推理引擎，支持多轮对话、长上下文、流式生成等复杂场景；
探索训练-采样协同优化，降低推理端对训练整体效率的制约。

3. 强化学习训推分离架构优化
构建解耦的“训练-采样”系统架构，支持高并发采样与异步训练更新；
研究采样集群与训练集群之间的资源调度、数据同步与负载均衡机制；
实现弹性扩缩容、故障恢复、版本管理等系统能力，提升整体稳定性与可扩展性。

4. Agent 框架优化与系统支撑
研究面向复杂任务的Agent执行框架，优化工具调用、状态管理、多步规划的系统性能；
构建低延迟、高并发的Agent运行时环境，支持大规模仿真与自动评估；
探索Agent工作流的可复现性、可观测性与调试支持，提升研发效率。

📮 投递简历 ✨AI模拟面试

难度：

包括英文材料

大模型+

还有更多 •••

登录查看完整学习资料

相关职位

研究型实习生 - 面向大语言模型的知识蒸馏技术研究

实习阿里云研究型实习

专注于大模型后训练，包括蒸馏+SFT/RL等相关技术，目标提升LLMs/LMMs的综合效果以及垂直场景效果，同时降低模型尺寸以减少部署成本，具体职责包括： 1、深入探索LLM蒸馏技术，对大模型进行极致的轻量化，同时尽可能减少模型的综合性能/垂直领域性能损失； 2、从数据合成、蒸馏算法等方面，提出创新优化技术，减少蒸馏带来的灾难性知识遗忘问题； 3、提出强化学习等创新方法，提升蒸馏后小模型解决复杂问题的能力，探索面向不同的复杂度任务自动调整推理模型思考长度的技术； 4、结合阿里云PAI平台产品服务，提供可靠高效的蒸馏+RL训练工具； 5、基于蒸馏+RL等后训练技术，面向Agent等LLM重点应用场景，构建业界领先的效果优化解决方案。

更新于 2025-10-11北京|杭州

研究型实习生-融合多模态的Agent+RL研究

实习通义研究型实习生

专注于多模态智能体（Agent）及强化学习（RL）的研究与开发，如 browser use 等，推动下一代智能决策系统的创新。主要职责包括： 1. 设计和构建基于 Qwen 系列模型的多模态 Agent，使其能够高效处理文本、图像、视频等多种信息，执行复杂任务； 2. 实现和训练强化学习算法，探索如何在多模态环境下优化智能体的决策策略； 3. 开发数据采集和环境建模工具，构建逼真的多模态交互环境； 4. 参与系统评估与优化，设计高效的验证机制，确保智能体的稳定性与泛化能力； 5. 撰写研究论文、技术文档，与团队共同推动技术突破，并提升行业影响力。

更新于 2025-08-15北京|杭州

研究型实习生-基于多模态大模型的人机交互技术研究

实习通义研究型实习生

专注于多模态大模型与人机交互技术的创新研究及实践，具体职责包括： 1、探索多模态大模型（文本/图像/语音/视频等）的交互式应用场景，研发新型人机交互范式； 2、针对多模态交互复杂任务推理进行探索及研究，提升多模态、多跳推理场景下的复杂任务完成率； 3、优化多模态数据的融合算法，提升模型对复杂交互场景的理解与响应能力； 4、构建高效的多模态交互系统模型架构，研究低延迟、高并发的实时交互技术方案。

更新于 2025-04-21北京|杭州

研究型实习生 - 面向多模态理解/交互的模型架构设计及其训练推理系统构建与优化

实习通义研究型实习生

1.负责多模态理解大模型的前沿算法研究、实现与优化，重点攻克图像/视频理解、视觉问答、跨模态交互等关键任务。 2.参与构建和清洗大规模多模态数据集，探索数据增强策略，并可能建设高效的数据生产、标注和评估 pipeline，涵盖通用数据、视频、OCR等场景。 3.具备技术前瞻性与创新能力，跟踪国际最新技术动态，探索如多模态理解创新架构、音视频理解、Agentic RAG、AI Memory等新方向，并提出创新算法或方案，推动学术前沿发展。

更新于 2025-12-02杭州|上海