阿里云研究型实习生-大模型高效强化学习系统研究
任职要求
1. 在读博士研究生,计算机相关专业; 2.有大模型后训练或者强化学习相关经验和工作背景; 3.有A类会议或者期刊论文发表经历; 4.有较强的代码能力,熟练掌握Python编程。
工作职责
我们正在寻找对大模型系统优化充满热情的优秀在读学生,参与大模型后训练阶段(Post-Training)关键系统与架构的前沿研究。你将深度参与千亿级大模型在强化学习训练、推理效率、训推分离架构、智能体(Agent)系统等方面的系统级优化工作,探索高MFU、低延迟、高吞吐的下一代AI基础设施。 如果你热爱系统与AI的交叉领域,希望在真实超大规模场景中打磨技术,欢迎加入我们,与顶尖研究者和工程师共同推动大模型系统的技术边界! 研究方向与实习内容: 你将从以下四个核心方向中选择1-2个深入参与,开展系统性研究与工程实现: 1. 后训练 MFU(Model FLOPs Utilization)优化 研究SFT、RLHF、DPO等后训练任务中的计算效率瓶颈; 设计高MFU的训练策略与系统支持,优化计算密度(如序列填充、混合批次、梯度累积等); 探索算力利用率提升路径,结合通信、显存、计算进行端到端建模与优化。 2. 强化学习推理框架优化 针对RLHF中大量采样推理的需求,优化推理延迟与吞吐(如Speculative Decoding、KV Cache复用、动态批处理); 设计轻量、高效的推理引擎,支持多轮对话、长上下文、流式生成等复杂场景; 探索训练-采样协同优化,降低推理端对训练整体效率的制约。 3. 强化学习训推分离架构优化 构建解耦的“训练-采样”系统架构,支持高并发采样与异步训练更新; 研究采样集群与训练集群之间的资源调度、数据同步与负载均衡机制; 实现弹性扩缩容、故障恢复、版本管理等系统能力,提升整体稳定性与可扩展性。 4. Agent 框架优化与系统支撑 研究面向复杂任务的Agent执行框架,优化工具调用、状态管理、多步规划的系统性能; 构建低延迟、高并发的Agent运行时环境,支持大规模仿真与自动评估; 探索Agent工作流的可复现性、可观测性与调试支持,提升研发效率。
专注于大模型后训练,包括蒸馏+SFT/RL等相关技术,目标提升LLMs/LMMs的综合效果以及垂直场景效果,同时降低模型尺寸以减少部署成本,具体职责包括: 1、深入探索LLM蒸馏技术,对大模型进行极致的轻量化,同时尽可能减少模型的综合性能/垂直领域性能损失; 2、从数据合成、蒸馏算法等方面,提出创新优化技术,减少蒸馏带来的灾难性知识遗忘问题; 3、提出强化学习等创新方法,提升蒸馏后小模型解决复杂问题的能力,探索面向不同的复杂度任务自动调整推理模型思考长度的技术; 4、结合阿里云PAI平台产品服务,提供可靠高效的蒸馏+RL训练工具; 5、基于蒸馏+RL等后训练技术,面向Agent等LLM重点应用场景,构建业界领先的效果优化解决方案。
专注于多模态智能体(Agent)及强化学习(RL)的研究与开发,如 browser use 等,推动下一代智能决策系统的创新。主要职责包括: 1. 设计和构建基于 Qwen 系列模型的多模态 Agent,使其能够高效处理文本、图像、视频等多种信息,执行复杂任务; 2. 实现和训练强化学习算法,探索如何在多模态环境下优化智能体的决策策略; 3. 开发数据采集和环境建模工具,构建逼真的多模态交互环境; 4. 参与系统评估与优化,设计高效的验证机制,确保智能体的稳定性与泛化能力; 5. 撰写研究论文、技术文档,与团队共同推动技术突破,并提升行业影响力。
专注于多模态大模型与人机交互技术的创新研究及实践,具体职责包括: 1、探索多模态大模型(文本/图像/语音/视频等)的交互式应用场景,研发新型人机交互范式; 2、针对多模态交互复杂任务推理进行探索及研究,提升多模态、多跳推理场景下的复杂任务完成率; 3、优化多模态数据的融合算法,提升模型对复杂交互场景的理解与响应能力; 4、构建高效的多模态交互系统模型架构,研究低延迟、高并发的实时交互技术方案。
随着大模型能力的增强,Agent在各个领域取得了显著进步,智能体正逐步实现复杂任务的自动化。然而,在面对多步骤决策和长Inference链路任务时,智能体常常显得力不从心,难以优化全局规划与执行效率。提升智能体的规划能力成为智能体研究中的重要方向。 智能体规划能力增强技术旨在通过优化Planning的路径选择、决策树构建和计划执行,来提升智能体在复杂环境中完成任务的能力。该技术结合强化学习(Reinforcement Learning)和启发式搜索(Heuristic Search)等方法,力求实现智能体的自主决策与学习,从而在动态和不确定环境中表现出更加智能和高效的行为。 在智能体规划能力增强与研究领域,目前面临的主要挑战包括:复杂环境中的多步骤任务规划、多模态信息的综合处理、实时动态调整和优化策略等。为解决这些问题,本Project将深入探索智能体的规划算法与能力增强技术,提出具有更高效率和鲁棒性的解决方案。