阿里云研究型实习生-大模型高效强化学习系统研究
任职要求
1. 在读博士研究生,计算机相关专业;
2.有大模型后训练或者强化学习相关经验和工作背景…工作职责
我们正在寻找对大模型系统优化充满热情的优秀在读学生,参与大模型后训练阶段(Post-Training)关键系统与架构的前沿研究。你将深度参与千亿级大模型在强化学习训练、推理效率、训推分离架构、智能体(Agent)系统等方面的系统级优化工作,探索高MFU、低延迟、高吞吐的下一代AI基础设施。 如果你热爱系统与AI的交叉领域,希望在真实超大规模场景中打磨技术,欢迎加入我们,与顶尖研究者和工程师共同推动大模型系统的技术边界! 研究方向与实习内容: 你将从以下四个核心方向中选择1-2个深入参与,开展系统性研究与工程实现: 1. 后训练 MFU(Model FLOPs Utilization)优化 研究SFT、RLHF、DPO等后训练任务中的计算效率瓶颈; 设计高MFU的训练策略与系统支持,优化计算密度(如序列填充、混合批次、梯度累积等); 探索算力利用率提升路径,结合通信、显存、计算进行端到端建模与优化。 2. 强化学习推理框架优化 针对RLHF中大量采样推理的需求,优化推理延迟与吞吐(如Speculative Decoding、KV Cache复用、动态批处理); 设计轻量、高效的推理引擎,支持多轮对话、长上下文、流式生成等复杂场景; 探索训练-采样协同优化,降低推理端对训练整体效率的制约。 3. 强化学习训推分离架构优化 构建解耦的“训练-采样”系统架构,支持高并发采样与异步训练更新; 研究采样集群与训练集群之间的资源调度、数据同步与负载均衡机制; 实现弹性扩缩容、故障恢复、版本管理等系统能力,提升整体稳定性与可扩展性。 4. Agent 框架优化与系统支撑 研究面向复杂任务的Agent执行框架,优化工具调用、状态管理、多步规划的系统性能; 构建低延迟、高并发的Agent运行时环境,支持大规模仿真与自动评估; 探索Agent工作流的可复现性、可观测性与调试支持,提升研发效率。
随着大模型技术迅猛发展,模型迭代速度远超传统评测体系更新。当前行业面临核心痛点:复杂任务与长尾场景缺乏有效评估标准,主观指标难以量化,人工评测成本高、效率低。现有系统难以支撑大规模模型集成与快速实验,制约了模型在真实业务中的落地。本项目旨在构建下一代评测体系,解决评估滞后与对齐难题,确保模型能力可测、可控、可用,为业务场景提供坚实技术底座,推动 AI 从“可用”向“好用”跨越,满足产业界对高质量模型的迫切需求。 1. 深度挖掘大模型在复杂任务、长尾场景中的弱点,设计并构建具有可扩展性的自动化评测方案及高质量数据集; 2. 参与 LLM-as-a-Judge 方案的设计与实现,训练高精度的 Reward Model(奖励模型),建模人类偏好,提升模型在指令遵循、创造性等主观评价上的表现; 3. 设计高效的 Reward Signal(奖励信号)并合成对应数据,通过强化学习(RL)算法持续提升模型的能力上限与泛化性; 4. 参与开发 Evaluation 与 Reward System 所需的工程框架,简化多任务测试流程,提升大规模模型集成与实验的效率; 5. 跟踪全球大模型最新进展(如 Agent 评测、多模态对齐、自动化数据合成等),推动研究成果在真实业务场景中的落地。
专注于大模型后训练,包括蒸馏+SFT/RL等相关技术,目标提升LLMs/LMMs的综合效果以及垂直场景效果,同时降低模型尺寸以减少部署成本,具体职责包括: 1、深入探索LLM蒸馏技术,对大模型进行极致的轻量化,同时尽可能减少模型的综合性能/垂直领域性能损失; 2、从数据合成、蒸馏算法等方面,提出创新优化技术,减少蒸馏带来的灾难性知识遗忘问题; 3、提出强化学习等创新方法,提升蒸馏后小模型解决复杂问题的能力,探索面向不同的复杂度任务自动调整推理模型思考长度的技术; 4、结合阿里云PAI平台产品服务,提供可靠高效的蒸馏+RL训练工具; 5、基于蒸馏+RL等后训练技术,面向Agent等LLM重点应用场景,构建业界领先的效果优化解决方案。
专注于多模态智能体(Agent)及强化学习(RL)的研究与开发,如 browser use 等,推动下一代智能决策系统的创新。主要职责包括: 1. 设计和构建基于 Qwen 系列模型的多模态 Agent,使其能够高效处理文本、图像、视频等多种信息,执行复杂任务; 2. 实现和训练强化学习算法,探索如何在多模态环境下优化智能体的决策策略; 3. 开发数据采集和环境建模工具,构建逼真的多模态交互环境; 4. 参与系统评估与优化,设计高效的验证机制,确保智能体的稳定性与泛化能力; 5. 撰写研究论文、技术文档,与团队共同推动技术突破,并提升行业影响力。