腾讯AI Infra强化学习工程师-(深圳)or(北京)or

社招全职3年以上腾讯云技术2026-08-03地点：上海状态：招聘

扫码手机上打开

任职要求

1.算机科学、软件工程、人工智能等相关专业，3 年以上工程化开发经验（含 1 年以上 RL 或深度学习基础设施相关经验）；
2.熟练掌握 Python 编程，具备扎实的工程编码能力，熟悉 C/C++ 者优先（底层优化场景）；
3.深入理解深度学习框架（PyTorch），精通分布式训练原理与实践（FSDP/DeepSpeed/Megatron/Ray 等工具使用经验）；
4.具备强化学习基础，理解 RL 训练流程（智能体、环境、奖励机制、经验回放等核心组件），熟悉主流 RL 框架（Ray、VERL、rllm、Agentlightning）者优先；
5.具备复杂系统设计能力，能独立负责基础设…

登录查看完整任职要求

微信扫码，1秒登录

工作职责

1.负责LLM RL、Agentic RL强化学习训练框架的设计、开发与性能优化，支撑大规模 RL 算法（如 PPO、DQN、GRPO等）的高效落地；
2.构建分布式训练体系，优化训推异步、partial rollout、数据并行、模型并行、Replay Buffer分布式存储与调度策略，提升 GPU 利用率与训练吞吐；
3.设计并实现 RL 训练全流程工具链：包括环境封装、数据预处理、模型版本管理、训练日志监控、指标可可视化（TensorBoard/Weights & Biases）等；
4.解决 RL 训练中的工程瓶颈：如样本传输延迟、GPU 显存溢出、训练稳定性（梯度爆炸 / 消失）等问题，提供工程化解决方案；
5.与 RL 算法团队紧密协作，理解算法需求并迭代基础设施，适配多场景的训练需求；
6.跟进强化学习与分布式训练领域的前沿技术（如 VERL、rllm、Agentlightning、Ray、Megatron-LM等），并落地到实际系统中。

📮 投递简历 ✨AI模拟面试

难度：

包括英文材料

深度学习+

Python+

C+

C+++

PyTorch+

FSDP+

DeepSpeed+

还有更多 •••

登录查看完整学习资料

相关职位

【理想+】AI Infra工程师-视觉感知/强化学习-杭州

校招算法

“理想+”是理想汽车面向全球顶尖技术人才的校园招聘计划。我们期待你的加入，与理想汽车一起成长、分享收获，通过人工智能技术去改变物理世界的效率和体验，造福我们服务的每一个家庭，以及家庭里的每一位成员。【本岗位的主要工作内容】负责AI算法领域的技术创新研究，包括： 1. 大模型结构：设计高效的序列建模方法、Transformer变体、VLM模型结构等； 2. 模型稀疏化：研究多维度稀疏化方法，在精度损失可控的前提下降低模型参数量和算力需求； 3. 强化学习：分析LLM推理行为，探索适用于LLM的强化学习方法，推动大模型向自学习和自进化演进； 4. 与系统协同设计：基于芯片资源（带宽/算力/存储）设计高效训练和推理的算法。

杭州

【理想+】AI Infra工程师-视觉感知/强化学习-香港

校招算法

香港

【理想+】AI Infra工程师-视觉感知/强化学习-上海

校招算法

上海

【理想+】AI Infra工程师-视觉感知/强化学习-北京

校招算法

北京

腾讯AI Infra强化学习工程师​-(深圳)or(北京)or

任职要求

工作职责

腾讯AI Infra强化学习工程师-(深圳)or(北京)or