智能互联阿里云智能-大语言模型强化学习框架研发专家-PAI

社招全职3年以上2026-03-27地点：北京 | 杭州状态：招聘

扫码手机上打开

任职要求

● 计算机、软件工程、人工智能相关专业硕士及以上学历。
● 扎实的工程能力，优良的编程风格，熟悉Python/Go语言和常用设计模式，具备复杂系统的设计开发调试能力。
● 熟悉深度学习的基础理论概念，了解主流模型算法，能够熟练应用PyTorch等框架。
…

登录查看完整任职要求

微信扫码，1秒登录

工作职责

● 强化学习训推分离架构优化，构建解耦的“训练-采样”系统架构，支持高并发采样与异步训练更新；
研究采样集群与训练集群之间的资源调度、数据同步与负载均衡机制；实现弹性扩缩容、故障恢复、版本管理等系统能力，提升整体稳定性与可扩展性。
● 后训练 MFU（Model FLOPs Utilization）优化。研究SFT、RLHF、DPO等后训练任务中的计算效率瓶颈；设计高MFU的训练策略与系统支持，优化计算密度（如序列填充、混合批次、梯度累积等）；探索算力利用率提升路径，结合通信、显存、计算进行端到端建模与优化。
● 强化学习推理框架优化，针对RLHF中大量采样推理的需求，优化推理延迟与吞吐（如Speculative Decoding、KV Cache复用、动态批处理）；设计轻量、高效的推理引擎，支持多轮对话、长上下文、流式生成等复杂场景；探索训练-采样协同优化，降低推理端对训练整体效率的制约。
● Agent 框架优化与系统支撑，研究面向复杂任务的Agent执行框架，优化工具调用、状态管理、多步规划的系统性能；构建低延迟、高并发的Agent运行时环境，支持大规模仿真与自动评估；探索Agent工作流的可复现性、可观测性与调试支持，提升研发效率。

📮 投递简历 ✨AI模拟面试

难度：

包括英文材料

学历+

Python+

Go+

设计模式+

深度学习+

还有更多 •••

登录查看完整学习资料

相关职位

阿里云智能-大语言模型强化学习框架研发专家-PAI

社招3年以上云智能集团

● 强化学习训推分离架构优化，构建解耦的“训练-采样”系统架构，支持高并发采样与异步训练更新；研究采样集群与训练集群之间的资源调度、数据同步与负载均衡机制；实现弹性扩缩容、故障恢复、版本管理等系统能力，提升整体稳定性与可扩展性。 ● 后训练 MFU（Model FLOPs Utilization）优化。研究SFT、RLHF、DPO等后训练任务中的计算效率瓶颈；设计高MFU的训练策略与系统支持，优化计算密度（如序列填充、混合批次、梯度累积等）；探索算力利用率提升路径，结合通信、显存、计算进行端到端建模与优化。 ● 强化学习推理框架优化，针对RLHF中大量采样推理的需求，优化推理延迟与吞吐（如Speculative Decoding、KV Cache复用、动态批处理）；设计轻量、高效的推理引擎，支持多轮对话、长上下文、流式生成等复杂场景；探索训练-采样协同优化，降低推理端对训练整体效率的制约。 ● Agent 框架优化与系统支撑，研究面向复杂任务的Agent执行框架，优化工具调用、状态管理、多步规划的系统性能；构建低延迟、高并发的Agent运行时环境，支持大规模仿真与自动评估；探索Agent工作流的可复现性、可观测性与调试支持，提升研发效率。

更新于 2026-03-27北京|杭州

阿里云智能-大语言模型算法专家/高级算法工程师-杭州

社招3年以上云智能集团

1. 高质量垂域数据工程：深入优化垂直领域（如文本内容审核）的高质量数据构建与迭代方法论，持续提升数据的质量、多样性与生产效率。 2. 可扩展后训练体系：探索适配领域特性的 SFT/RL 算法，构建高效、稳定、可扩展的垂域模型后训练范式，系统性提升模型能力。 3. 前沿技术研究与落地：探索推理模型前沿技术（如高效蒸馏、reward system、agentic RL、test-time learning 等）以及模型可解释性技术，沉淀技术成果和影响力，并推动大模型相关技术在行业场景中的转化与落地，提升领域模型竞争力，支撑业务持续增长。

更新于 2026-04-03杭州

阿里云智能-大语言模型算法专家/高级算法工程师-杭州

社招3年以上

更新于 2026-04-03杭州

基于大语言模型和OpenAPI的云平台智能运维系统-阿里星

实习阿里巴巴2027

1、负责研发AIOps系统，通过LLM结合OpenAPI/MCP等技术，实现云客户的自动化运维，提升运维效率和稳定性； 2、设计与开发前沿AI智能体：构思、原型化并评估新颖的、基于LLM的自主智能体，能够基于云平台产品和OpenAPI执行端到端的IT事件管理任务，包括智能日志分析、多模态异常检测、根本原因分析（RCA）以及自动化修复方案的生成与执行； 3、探索与实施尖端LLM技术：深入研究并应用最先进的LLM技术，包括但不限于： •MCP/Skills为客户侧AIOps系统提供与云平台OpenAPI进行集成的标准化接口； •利用检索增强生成（RAG）为模型提供丰富的、上下文感知的运维数据（如日志、指标、追踪）； •设计和实现多智能体协作框架，让多个专用智能体协同解决复杂的系统故障； •通过模型微调（Fine-tuning）和提示工程（Prompt Engineering），提升模型在特定运维任务上的性能和可靠性； 4、解决核心研究挑战：专注于攻克将LLM应用于AIOps领域的关键难题，包括但不限于： •研究并提出创新方法以减轻模型的“幻觉”（Hallucination）问题，确保在生产环境中的决策可靠性，例如通过引入外部知识库或标准操作程序（SOPs）进行约束； •开发资源高效型（Resource-Efficient）模型和算法，在保证卓越性能的同时，解决LLM高昂的计算成本和延迟问题； 5、推动科学严谨性与可复现性：建立和利用科学的评估基准与框架（Benchmark），对所研发的模型和智能体进行严格、可复现的性能评测，并与业界SOTA（State-of-the-art）方案进行比较； 6、发表与分享研究成果：将创新工作和实验发现撰写成高质量的学术论文，并在全球顶级的AI、系统和软件工程会议（如ICSE、FSE、OSDI、NSDI、KDD、VLDB等）上发表，引领该领域的学术发展方向。

更新于 2026-03-23北京|杭州