logo of aliyun

阿里云研究型实习生-大模型高效强化学习系统研究

实习兼职阿里云研究型实习生地点:北京状态:招聘

任职要求


1. 在读博士研究生,计算机相关专业;
2.有大模型后训练或者强化学习相关经验和工作背景;
3.有A类会议或者期刊论文发表经历;
4.有较强的代码能力,熟练掌握Python编程。

工作职责


我们正在寻找对大模型系统优化充满热情的优秀在读学生,参与大模型后训练阶段(Post-Training)关键系统与架构的前沿研究。你将深度参与千亿级大模型在强化学习训练、推理效率、训推分离架构、智能体(Agent)系统等方面的系统级优化工作,探索高MFU、低延迟、高吞吐的下一代AI基础设施。
如果你热爱系统与AI的交叉领域,希望在真实超大规模场景中打磨技术,欢迎加入我们,与顶尖研究者和工程师共同推动大模型系统的技术边界!

研究方向与实习内容:
你将从以下四个核心方向中选择1-2个深入参与,开展系统性研究与工程实现:

1. 后训练 MFU(Model FLOPs Utilization)优化
研究SFT、RLHF、DPO等后训练任务中的计算效率瓶颈;
设计高MFU的训练策略与系统支持,优化计算密度(如序列填充、混合批次、梯度累积等);
探索算力利用率提升路径,结合通信、显存、计算进行端到端建模与优化。

2. 强化学习推理框架优化
针对RLHF中大量采样推理的需求,优化推理延迟与吞吐(如Speculative Decoding、KV Cache复用、动态批处理);
设计轻量、高效的推理引擎,支持多轮对话、长上下文、流式生成等复杂场景;
探索训练-采样协同优化,降低推理端对训练整体效率的制约。

3. 强化学习训推分离架构优化
构建解耦的“训练-采样”系统架构,支持高并发采样与异步训练更新;
研究采样集群与训练集群之间的资源调度、数据同步与负载均衡机制;
实现弹性扩缩容、故障恢复、版本管理等系统能力,提升整体稳定性与可扩展性。

4. Agent 框架优化与系统支撑
研究面向复杂任务的Agent执行框架,优化工具调用、状态管理、多步规划的系统性能;
构建低延迟、高并发的Agent运行时环境,支持大规模仿真与自动评估;
探索Agent工作流的可复现性、可观测性与调试支持,提升研发效率。
包括英文材料
大模型+
强化学习+
Python+
相关职位

logo of aliyun
实习阿里云研究型实习

专注于大模型后训练,包括蒸馏+SFT/RL等相关技术,目标提升LLMs/LMMs的综合效果以及垂直场景效果,同时降低模型尺寸以减少部署成本,具体职责包括: 1、深入探索LLM蒸馏技术,对大模型进行极致的轻量化,同时尽可能减少模型的综合性能/垂直领域性能损失; 2、从数据合成、蒸馏算法等方面,提出创新优化技术,减少蒸馏带来的灾难性知识遗忘问题; 3、提出强化学习等创新方法,提升蒸馏后小模型解决复杂问题的能力,探索面向不同的复杂度任务自动调整推理模型思考长度的技术; 4、结合阿里云PAI平台产品服务,提供可靠高效的蒸馏+RL训练工具; 5、基于蒸馏+RL等后训练技术,面向Agent等LLM重点应用场景,构建业界领先的效果优化解决方案。

更新于 2025-10-11
logo of tongyi
实习通义研究型实习生

专注于多模态智能体(Agent)及强化学习(RL)的研究与开发,如 browser use 等,推动下一代智能决策系统的创新。主要职责包括: 1. 设计和构建基于 Qwen 系列模型的多模态 Agent,使其能够高效处理文本、图像、视频等多种信息,执行复杂任务; 2. 实现和训练强化学习算法,探索如何在多模态环境下优化智能体的决策策略; 3. 开发数据采集和环境建模工具,构建逼真的多模态交互环境; 4. 参与系统评估与优化,设计高效的验证机制,确保智能体的稳定性与泛化能力; 5. 撰写研究论文、技术文档,与团队共同推动技术突破,并提升行业影响力。

更新于 2025-08-15
logo of tongyi
实习通义研究型实习生

专注于多模态大模型与人机交互技术的创新研究及实践,具体职责包括: 1、探索多模态大模型(文本/图像/语音/视频等)的交互式应用场景,研发新型人机交互范式; 2、针对多模态交互复杂任务推理进行探索及研究,提升多模态、多跳推理场景下的复杂任务完成率; 3、优化多模态数据的融合算法,提升模型对复杂交互场景的理解与响应能力; 4、构建高效的多模态交互系统模型架构,研究低延迟、高并发的实时交互技术方案。

更新于 2025-04-21
logo of tongyi
实习通义研究型实习生

随着大模型能力的增强,Agent在各个领域取得了显著进步,智能体正逐步实现复杂任务的自动化。然而,在面对多步骤决策和长Inference链路任务时,智能体常常显得力不从心,难以优化全局规划与执行效率。提升智能体的规划能力成为智能体研究中的重要方向。 智能体规划能力增强技术旨在通过优化Planning的路径选择、决策树构建和计划执行,来提升智能体在复杂环境中完成任务的能力。该技术结合强化学习(Reinforcement Learning)和启发式搜索(Heuristic Search)等方法,力求实现智能体的自主决策与学习,从而在动态和不确定环境中表现出更加智能和高效的行为。 在智能体规划能力增强与研究领域,目前面临的主要挑战包括:复杂环境中的多步骤任务规划、多模态信息的综合处理、实时动态调整和优化策略等。为解决这些问题,本Project将深入探索智能体的规划算法与能力增强技术,提出具有更高效率和鲁棒性的解决方案。

更新于 2025-02-11