
智能互联阿里云智能-大语言模型强化学习框架研发专家-PAI
任职要求
● 计算机、软件工程、人工智能相关专业硕士及以上学历。 ● 扎实的工程能力,优良的编程风格,熟悉Python/Go语言和常用设计模式,具备复杂系统的设计开发调试能力。 ● 熟悉深度学习的基础理论概念,了解主流模型算法,能够熟练应用PyTorch等框架。 …
工作职责
● 强化学习训推分离架构优化,构建解耦的“训练-采样”系统架构,支持高并发采样与异步训练更新; 研究采样集群与训练集群之间的资源调度、数据同步与负载均衡机制;实现弹性扩缩容、故障恢复、版本管理等系统能力,提升整体稳定性与可扩展性。 ● 后训练 MFU(Model FLOPs Utilization)优化。研究SFT、RLHF、DPO等后训练任务中的计算效率瓶颈;设计高MFU的训练策略与系统支持,优化计算密度(如序列填充、混合批次、梯度累积等);探索算力利用率提升路径,结合通信、显存、计算进行端到端建模与优化。 ● 强化学习推理框架优化,针对RLHF中大量采样推理的需求,优化推理延迟与吞吐(如Speculative Decoding、KV Cache复用、动态批处理);设计轻量、高效的推理引擎,支持多轮对话、长上下文、流式生成等复杂场景;探索训练-采样协同优化,降低推理端对训练整体效率的制约。 ● Agent 框架优化与系统支撑,研究面向复杂任务的Agent执行框架,优化工具调用、状态管理、多步规划的系统性能;构建低延迟、高并发的Agent运行时环境,支持大规模仿真与自动评估;探索Agent工作流的可复现性、可观测性与调试支持,提升研发效率。
● 强化学习训推分离架构优化,构建解耦的“训练-采样”系统架构,支持高并发采样与异步训练更新; 研究采样集群与训练集群之间的资源调度、数据同步与负载均衡机制;实现弹性扩缩容、故障恢复、版本管理等系统能力,提升整体稳定性与可扩展性。 ● 后训练 MFU(Model FLOPs Utilization)优化。研究SFT、RLHF、DPO等后训练任务中的计算效率瓶颈;设计高MFU的训练策略与系统支持,优化计算密度(如序列填充、混合批次、梯度累积等);探索算力利用率提升路径,结合通信、显存、计算进行端到端建模与优化。 ● 强化学习推理框架优化,针对RLHF中大量采样推理的需求,优化推理延迟与吞吐(如Speculative Decoding、KV Cache复用、动态批处理);设计轻量、高效的推理引擎,支持多轮对话、长上下文、流式生成等复杂场景;探索训练-采样协同优化,降低推理端对训练整体效率的制约。 ● Agent 框架优化与系统支撑,研究面向复杂任务的Agent执行框架,优化工具调用、状态管理、多步规划的系统性能;构建低延迟、高并发的Agent运行时环境,支持大规模仿真与自动评估;探索Agent工作流的可复现性、可观测性与调试支持,提升研发效率。
1. 多模态大模型研发与优化 1) 设计并实现多模态大模型(图文音联合建模),解决跨模态语义对齐、动态数据处理等核心问题。 2) 优化模型生成能力,支持复杂多模态交互,实现毫秒级响应。 2. 多 Agent 系统算法设计 1) 构建多 Agent 协作框架,设计动态任务分配与博弈策略,解决资源争夺、动态联盟等复杂场景下的决策问题。 2) 结合博弈论与强化学习,开发对手建模模块,预测其他 Agent 的策略分布,优化协作效率。 3) 参与工业级 Agent 系统落地。 3. 行业场景落地与创新 1) 探索生成式 AI 与 RAG的结合,提升垂直领域的知识推理能力。 2) 跟踪前沿技术,推动技术方案的创新与落地。
一、GUI Agent多模态大模型研发与优化 1. 设计并实现多模态大模型,解决跨模态语义对齐、动态数据处理等核心问题。 2. 优化模型生成能力,支持复杂多模态交互,实现毫秒级响应。 3. 参与GUI Agent数据集构建及数据质量提升相关工作。 4. 参与大模型用户意图理解、任务规划及长任务执行端到端执行能力提升构建 二、多 Agent 系统算法设计 1. 构建多 Agent 协作框架,设计动态任务分配与博弈策略,解决资源争夺、动态联盟等复杂场景下的决策问题。 2. 结合各类强化学习策略,优化协作效率。 3. 参与工业级 Agent 系统落地,推动大模型与工具链的深度整合。 三、行业场景落地与创新 1. 探索生成式 AI 与 RAG(检索增强生成)的结合,提升垂直领域的知识推理能力。 2. 探索行业Deep Research+强化学习结合,提升行业Deep Research竞争力。 3. 熟悉AIGC视频生成或者图像生成技术,参与过业界知名视频生成项目优先,, 或者有视频生成模型优化技术经验。 4. 跟踪前沿技术,推动技术方案的创新与落地。
部门简介 大数据和智能实验室聚焦于基于后训练技术的领域模型,积极推动AI大模型时代各行业的智能化升级。目前团队主要负责各行业和领域的语言大模型、多模态大模型、以及大模型基础研究,主要技术成果已成功应用到科学研究、安全审核、主权模型、生物医疗、大型国际赛事(奥运会、NBA)等多个领域大模型中。 工作内容 1.多模态大模型后训练研发:根据行业要求,探索适配领域特性的SFT/RL算法研发,构建高效、稳定、可扩展的垂域模型后训练范式,优化模型结构和推理效率,持续提升模型在业务场景下的效果、性能和用户体验,提升产品竞争力和市场规模。 2.垂域高质量数据闭环研发:持续建设高质量数据筛选流程,提升自动化预标注精度,推进垂域场景多模态数据 scale up,根据业务需求和评测结果提升定向数据挖掘能力,不断提升数据质量、多样性和生产效率。 3. 紧跟多模态大模型前沿技术趋势,从Visual RL到Token Compression,提升模型处理复杂、多变场景以及对模糊指令的遵循能力,优化模型响应速度,拓展模型在重点领域的智力边界,并以开源、技术报告等方式沉淀研究成果。引入新的算法技术和理念,为团队技术迭代提供前瞻性建议。