logo of aliyun

阿里云研究型实习生-大模型高效强化学习系统研究

实习兼职阿里云研究型实习生地点:北京状态:招聘

任职要求


1. 在读博士研究生,计算机相关专业;
2.有大模型后训练或者强化学习相关经验和工作背景…
登录查看完整任职要求
微信扫码,1秒登录

工作职责


我们正在寻找对大模型系统优化充满热情的优秀在读学生,参与大模型后训练阶段(Post-Training)关键系统与架构的前沿研究。你将深度参与千亿级大模型在强化学习训练、推理效率、训推分离架构、智能体(Agent)系统等方面的系统级优化工作,探索高MFU、低延迟、高吞吐的下一代AI基础设施。
如果你热爱系统与AI的交叉领域,希望在真实超大规模场景中打磨技术,欢迎加入我们,与顶尖研究者和工程师共同推动大模型系统的技术边界!

研究方向与实习内容:
你将从以下四个核心方向中选择1-2个深入参与,开展系统性研究与工程实现:

1. 后训练 MFU(Model FLOPs Utilization)优化
研究SFT、RLHF、DPO等后训练任务中的计算效率瓶颈;
设计高MFU的训练策略与系统支持,优化计算密度(如序列填充、混合批次、梯度累积等);
探索算力利用率提升路径,结合通信、显存、计算进行端到端建模与优化。

2. 强化学习推理框架优化
针对RLHF中大量采样推理的需求,优化推理延迟与吞吐(如Speculative Decoding、KV Cache复用、动态批处理);
设计轻量、高效的推理引擎,支持多轮对话、长上下文、流式生成等复杂场景;
探索训练-采样协同优化,降低推理端对训练整体效率的制约。

3. 强化学习训推分离架构优化
构建解耦的“训练-采样”系统架构,支持高并发采样与异步训练更新;
研究采样集群与训练集群之间的资源调度、数据同步与负载均衡机制;
实现弹性扩缩容、故障恢复、版本管理等系统能力,提升整体稳定性与可扩展性。

4. Agent 框架优化与系统支撑
研究面向复杂任务的Agent执行框架,优化工具调用、状态管理、多步规划的系统性能;
构建低延迟、高并发的Agent运行时环境,支持大规模仿真与自动评估;
探索Agent工作流的可复现性、可观测性与调试支持,提升研发效率。
包括英文材料
大模型+
还有更多 •••
相关职位

logo of aliyun
实习阿里云研究型实习

专注于大模型后训练,包括蒸馏+SFT/RL等相关技术,目标提升LLMs/LMMs的综合效果以及垂直场景效果,同时降低模型尺寸以减少部署成本,具体职责包括: 1、深入探索LLM蒸馏技术,对大模型进行极致的轻量化,同时尽可能减少模型的综合性能/垂直领域性能损失; 2、从数据合成、蒸馏算法等方面,提出创新优化技术,减少蒸馏带来的灾难性知识遗忘问题; 3、提出强化学习等创新方法,提升蒸馏后小模型解决复杂问题的能力,探索面向不同的复杂度任务自动调整推理模型思考长度的技术; 4、结合阿里云PAI平台产品服务,提供可靠高效的蒸馏+RL训练工具; 5、基于蒸馏+RL等后训练技术,面向Agent等LLM重点应用场景,构建业界领先的效果优化解决方案。

更新于 2025-10-11北京|杭州
logo of tongyi
实习通义研究型实习生

专注于多模态智能体(Agent)及强化学习(RL)的研究与开发,如 browser use 等,推动下一代智能决策系统的创新。主要职责包括: 1. 设计和构建基于 Qwen 系列模型的多模态 Agent,使其能够高效处理文本、图像、视频等多种信息,执行复杂任务; 2. 实现和训练强化学习算法,探索如何在多模态环境下优化智能体的决策策略; 3. 开发数据采集和环境建模工具,构建逼真的多模态交互环境; 4. 参与系统评估与优化,设计高效的验证机制,确保智能体的稳定性与泛化能力; 5. 撰写研究论文、技术文档,与团队共同推动技术突破,并提升行业影响力。

更新于 2025-08-15北京|杭州
logo of tongyi
实习通义研究型实习生

专注于多模态大模型与人机交互技术的创新研究及实践,具体职责包括: 1、探索多模态大模型(文本/图像/语音/视频等)的交互式应用场景,研发新型人机交互范式; 2、针对多模态交互复杂任务推理进行探索及研究,提升多模态、多跳推理场景下的复杂任务完成率; 3、优化多模态数据的融合算法,提升模型对复杂交互场景的理解与响应能力; 4、构建高效的多模态交互系统模型架构,研究低延迟、高并发的实时交互技术方案。

更新于 2025-04-21北京|杭州
logo of tongyi
实习通义研究型实习生

1.负责多模态理解大模型的前沿算法研究、实现与优化,重点攻克图像/视频理解、视觉问答、跨模态交互等关键任务。 2.参与构建和清洗大规模多模态数据集,探索数据增强策略,并可能建设高效的数据生产、标注和评估 pipeline,涵盖通用数据、视频、OCR等场景。 3.具备技术前瞻性与创新能力,跟踪国际最新技术动态,探索如多模态理解创新架构、音视频理解、Agentic RAG、AI Memory等新方向,并提出创新算法或方案,推动学术前沿发展。

更新于 2025-12-02杭州|上海