阿里云阿里云智能-大语言模型强化学习框架研发专家-PAI

社招全职3年以上云智能集团2026-03-27地点：北京 | 杭州状态：招聘

扫码手机上打开

任职要求

● 计算机、软件工程、人工智能相关专业硕士及以上学历。
● 扎实的工程能力，优良的编程风格，熟悉Python/Go语言和常用设计模式，具备复杂系统的设计开发调试能力。
● 熟悉深度学习的基础理论概念，了解主流模型算法，能够熟练应用PyTorch等框架。
…

登录查看完整任职要求

微信扫码，1秒登录

工作职责

● 强化学习训推分离架构优化，构建解耦的“训练-采样”系统架构，支持高并发采样与异步训练更新；
研究采样集群与训练集群之间的资源调度、数据同步与负载均衡机制；实现弹性扩缩容、故障恢复、版本管理等系统能力，提升整体稳定性与可扩展性。
● 后训练 MFU（Model FLOPs Utilization）优化。研究SFT、RLHF、DPO等后训练任务中的计算效率瓶颈；设计高MFU的训练策略与系统支持，优化计算密度（如序列填充、混合批次、梯度累积等）；探索算力利用率提升路径，结合通信、显存、计算进行端到端建模与优化。
● 强化学习推理框架优化，针对RLHF中大量采样推理的需求，优化推理延迟与吞吐（如Speculative Decoding、KV Cache复用、动态批处理）；设计轻量、高效的推理引擎，支持多轮对话、长上下文、流式生成等复杂场景；探索训练-采样协同优化，降低推理端对训练整体效率的制约。
● Agent 框架优化与系统支撑，研究面向复杂任务的Agent执行框架，优化工具调用、状态管理、多步规划的系统性能；构建低延迟、高并发的Agent运行时环境，支持大规模仿真与自动评估；探索Agent工作流的可复现性、可观测性与调试支持，提升研发效率。

📮 投递简历 ✨AI模拟面试

难度：

包括英文材料

学历+

Python+

Go+

设计模式+

深度学习+

还有更多 •••

登录查看完整学习资料

相关职位

阿里云智能-大语言模型强化学习框架研发专家-PAI

社招3年以上

● 强化学习训推分离架构优化，构建解耦的“训练-采样”系统架构，支持高并发采样与异步训练更新；研究采样集群与训练集群之间的资源调度、数据同步与负载均衡机制；实现弹性扩缩容、故障恢复、版本管理等系统能力，提升整体稳定性与可扩展性。 ● 后训练 MFU（Model FLOPs Utilization）优化。研究SFT、RLHF、DPO等后训练任务中的计算效率瓶颈；设计高MFU的训练策略与系统支持，优化计算密度（如序列填充、混合批次、梯度累积等）；探索算力利用率提升路径，结合通信、显存、计算进行端到端建模与优化。 ● 强化学习推理框架优化，针对RLHF中大量采样推理的需求，优化推理延迟与吞吐（如Speculative Decoding、KV Cache复用、动态批处理）；设计轻量、高效的推理引擎，支持多轮对话、长上下文、流式生成等复杂场景；探索训练-采样协同优化，降低推理端对训练整体效率的制约。 ● Agent 框架优化与系统支撑，研究面向复杂任务的Agent执行框架，优化工具调用、状态管理、多步规划的系统性能；构建低延迟、高并发的Agent运行时环境，支持大规模仿真与自动评估；探索Agent工作流的可复现性、可观测性与调试支持，提升研发效率。

更新于 2026-03-27北京|杭州

语言大模型算法专家-【强化学习方向】

社招3-5年J0011

1、深入研究强化学习在快手自研语言大模型中的创新应用，提升大模型能力上限； 2、负责大模型的基础技术研究，包括但不限于训练算法、框架及模型架构相关的基础技术探索和创新； 3、在顶级会议与开源社区塑造快手大模型团队的技术影响力。

更新于 2026-07-03北京

大语言模型方向

实习技术类

灵犀大语言模型与灵犀语音大模型训练，利用58独有的业务数据优势提升大模型在58业务场景中的效果

更新于 2026-06-09北京

大语言模型算法实习生

实习

1. 负责大语言模型（LLM）在人形机器人中的算法设计与开发，将LLM应用于机器人的对话、环境感知与人机交互任务 2. 参与大模型从预训练到后训练的全链路流程，深入分析模型对数据的敏感点，通过数据迭代与合成技术推动模型能力提升 3. 基于主流的大规模数据处理框架，参与搭建高效的数据处理 Pipeline，从海量原始数据中“炼金”，让它们转化为可直接驱动模型训练的高质量数据 4. 跟踪前沿研究，推动新技术在产品中的落地应用，根据业务需求，有机会参与LLM团队针对语言模型后训练RL框架的搭建与优化

更新于 2025-10-09深圳