阿里云阿里云智能-大语言模型强化学习框架研发专家-PAI
任职要求
● 计算机、软件工程、人工智能相关专业硕士及以上学历。 ● 扎实的工程能力,优良的编程风格,熟悉Python/Go语言和常用设计模式,具备复杂系统的设计开发调试能力。 ● 熟悉深度学习的基础理论概念,了解主流模型算法,能够熟练应用PyTorch等框架。 …
工作职责
● 强化学习训推分离架构优化,构建解耦的“训练-采样”系统架构,支持高并发采样与异步训练更新; 研究采样集群与训练集群之间的资源调度、数据同步与负载均衡机制;实现弹性扩缩容、故障恢复、版本管理等系统能力,提升整体稳定性与可扩展性。 ● 后训练 MFU(Model FLOPs Utilization)优化。研究SFT、RLHF、DPO等后训练任务中的计算效率瓶颈;设计高MFU的训练策略与系统支持,优化计算密度(如序列填充、混合批次、梯度累积等);探索算力利用率提升路径,结合通信、显存、计算进行端到端建模与优化。 ● 强化学习推理框架优化,针对RLHF中大量采样推理的需求,优化推理延迟与吞吐(如Speculative Decoding、KV Cache复用、动态批处理);设计轻量、高效的推理引擎,支持多轮对话、长上下文、流式生成等复杂场景;探索训练-采样协同优化,降低推理端对训练整体效率的制约。 ● Agent 框架优化与系统支撑,研究面向复杂任务的Agent执行框架,优化工具调用、状态管理、多步规划的系统性能;构建低延迟、高并发的Agent运行时环境,支持大规模仿真与自动评估;探索Agent工作流的可复现性、可观测性与调试支持,提升研发效率。
1.负责基于AI云平台,构建高效、易用的大模型/多模态大模型算子工具库,包括数据处理,预训练,SFT,模型蒸馏,强化学习等链路,并将云上的AI能力赋能给客户; 2. 基于上述AI算法开发工具链,研发大模型/多模态大模型算法在ChatBI,AI Agent,自动驾驶,具身智能等典型应用场景的最佳实践,对算法效果、性能进行持续优化; 3. 具备将业务问题转化成算法实现问题,帮助客户解决实际问题的能力;能与企业客户深度沟通,通过对业务的深入理解,将不同用户对算法的需求抽象成标准工具,达到能快速复制的效果; 4. 持续跟踪大模型/多模态大模型算法技术本身的业界动态,在算法效果/效率方面持续创新,沉淀学术影响力
1. MLOps平台开发打造一站式大模型开发平台,负责主流开源和闭源模型的训练、评测、蒸馏、压缩、部署全链路工具开发 ● 参与模型各种后训练如微调、蒸馏、强化学习的产品化,以及vLLM/sglang/自研推理引擎的优化,提供有竞争力的推理性能 ● 负责各种MLOps工具链开发,如AI资产管理、实验管理、血缘跟踪、评测对比等,帮助用户串联AI开发全流程,提升模型开发效率 ● 负责多模态数据自动标注和挖掘功能的开发,为智驾和具身智能客户提供新一代的数据工程解决方案 2. 企业级Agent开发平台建设 ● 建设具备全模态能力的agent开发平台,帮助客户构建RAG、chatbot、data agent、design agent、research agent等各种AI agent应用 ● 提供白盒化开发模式,建设全链路的可观测、可调试和监控能力,帮助用户构建同时具备高精度和高性价比的agent应用 ● 针对企业客户对安全隐私的强需求,构建全方位的安全防护能力,包括不限于模型安全护栏、工具沙箱、细粒度权限管控等 ● 与阿里云大数据、智能搜索等业务产品合作,建设阿里云agent工具生态
1. 主导基于阿里云PAI平台的大模型与多模态Agent工具链建设,涵盖数据处理、预训练、SFT、模型蒸馏、强化学习等全栈训练能力,打造高效、易用、可扩展的Agent开发基础设施,赋能千行百业智能化升级。 2. 面向ChatBI、智能运维机器人等核心场景,构建端到端的Agent算法解决方案,持续优化模型效果、推理性能与用户体验,树立行业最佳实践标杆。 3. 深度理解企业级业务需求,具备将复杂业务问题抽象为通用算法范式的能力,通过标准化、产品化工具实现客户需求的快速复制与规模化落地。 4. 紧跟全球大模型与多模态前沿技术演进,在算法效能、架构创新与工程落地方面持续突破,推动技术成果转化为学术影响力与商业价值。
我们是小红书中台大模型 Infra 团队,专注打造领先易用的「AI 大模型全链路基础设施」!团队深耕大模型「数-训-压-推-评」技术闭环,在大模型训练加速、模型压缩、推理优化、部署提效等方向积累了深厚的技术优势,基于 RedAccel 训练引擎、RedSlim 压缩工具、RedServing 推理部署引擎、DirectLLM 大模型 API 服务、QuickSilver 大模型生产部署平台等核心产品,持续赋能社区、商业、交易、安全、数平、研效等多个核心业务,实现 AI 技术高效落地! 1、参与设计实现支持RLHF/DPO等对齐技术的高效训练框架,优化强化学习阶段的Rollout、Reward Model集成、多阶段训练 Pipline; 2、研发支持多机多卡 RL 的分布式训练框架,开发TP/PP/ZeRO-3与RL流程的动态协同机制,解决 RL 算法在超长时序下的显存/通信瓶刭 3、构建端到端后训练工具链,主导框架与 MLOps 平台集成,提供训练可视化、自动超参搜索等生产级能力 4、与公司各算法部门深度合作,参与大语言模型LLM、多模态大模型 MLLM等业务在 SFT/RL领域的算法探索和引擎迭代; 5、参与分析各业务 GPU 利用率与饱和度等指标,结合业务场景持续优化训练框架能力,提升框架领先性。