logo of tencent

腾讯AI Infra强化学习工程师​-(深圳)or(北京)or

社招全职3年以上腾讯云技术地点:上海状态:招聘

任职要求


1.算机科学、软件工程、人工智能等相关专业,3 年以上工程化开发经验(含 1 年以上 RL 或深度学习基础设施相关经验);
2.熟练掌握 Python 编程,具备扎实的工程编码能力,熟悉 C/C++ 者优先(底层优化场景);
3.深入理解深度学习框架(PyTorch),精通分布式训练原理与实践(FSDP/DeepSpeed/Megatron/Ray 等工具使用经验);
4.具备强化学习基础,理解 RL 训练流程(智能体、环境、奖励机制、经验回放等核心组件),熟悉主流 RL 框架(Ray、VERL、rllm、Agentlightning)者优先;
5.具备复杂系统设计能力,能独立负责基础设…
登录查看完整任职要求
微信扫码,1秒登录

工作职责


1.负责LLM RL、Agentic RL强化学习训练框架的设计、开发与性能优化,支撑大规模 RL 算法(如 PPO、DQN、GRPO等)的高效落地;
2.构建分布式训练体系,优化训推异步、partial rollout、数据并行、模型并行、Replay Buffer分布式存储与调度策略,提升 GPU 利用率与训练吞吐;
3.设计并实现 RL 训练全流程工具链:包括环境封装、数据预处理、模型版本管理、训练日志监控、指标可可视化(TensorBoard/Weights & Biases)等;
4.解决 RL 训练中的工程瓶颈:如样本传输延迟、GPU 显存溢出、训练稳定性(梯度爆炸 / 消失)等问题,提供工程化解决方案;
5.与 RL 算法团队紧密协作,理解算法需求并迭代基础设施,适配多场景的训练需求;
6.跟进强化学习与分布式训练领域的前沿技术(如 VERL、rllm、Agentlightning、Ray、Megatron-LM等),并落地到实际系统中。
包括英文材料
深度学习+
Python+
C+
C+++
PyTorch+
FSDP+
DeepSpeed+
还有更多 •••
相关职位

logo of netease
社招网易游戏(互娱)

​​1. LLM+NPC系统设计​​:参与基于大语言模型的智能NPC核心系统开发,解决多轮对话、情境理解、行为决策等技术问题,平衡模型效果、响应延迟与计算成本。 ​​2. LLM深度优化与定制​​:针对游戏NPC场景(如剧情推进、任务引导、自由对话、阵营对抗),优化LLM的微调策略(LoRA/QLoRA/Adapter等)、知识注入(游戏世界观/角色背景/历史交互)、指令对齐(贴合游戏设定与玩家预期)及安全过滤机制。 ​​3. 动态进化与个性化​​:构建NPC的“记忆-学习”系统,支持基于玩家历史交互的长期记忆存储与动态关系演化,保障NPC行为逻辑的独特性与成长性。

更新于 2025-07-16广州
logo of xpeng
社招

1、与机器学习工程师紧密协作,负责将端到端模仿学习、强化学习和大语言模型等最新技术部署于人形机器人中,开发并优化深度学习的 C++ 推理管道; 2、设计并实现通信、数据采集、监控等中间件,优化机器人算力,确保软件和算法的高性能与稳定运行; 3、开发机器人 DevOps 和 MLOps 流程,将机器人软件与模型集成到 CI/CD 平台中; 4、与跨部门团队紧密合作,确保软件解决方案的兼容性和性能优化,推动项目成功落地; 5、积极探索新兴技术与工程领域,影响并参与团队的技术决策。

更新于 2024-06-26深圳|上海
logo of xpeng
社招

1、与机器学习工程师紧密协作,负责将端到端模仿学习、强化学习和大语言模型等最新技术部署于人形机器人中,开发并优化深度学习的 C++ 推理管道; 2、开发机器人研发工具链,如可视化、数据转发、上位机等软件,加速各个团队研发落地; 3、设计并实现通信、数据采集、监控等中间件,优化机器人算力,确保软件和算法的高性能与稳定运行; 4、开发机器人 DevOps 和 MLOps 流程,将机器人软件与模型集成到 CI/CD 平台中; 5、与跨部门团队紧密合作,确保软件解决方案的兼容性和性能优化,推动项目成功落地; 6、积极探索新兴技术与工程领域,影响并参与团队的技术决策。

更新于 2025-06-25深圳
logo of xpeng
社招

1、与机器学习工程师紧密协作,负责将端到端模仿学习、强化学习和大语言模型等最新技术部署于人形机器人中,开发并优化深度学习的 C++ 推理管道; 2、设计并实现通信、数据采集、监控等中间件,优化机器人算力,确保软件和算法的高性能与稳定运行; 3、开发机器人 DevOps 和 MLOps 流程,将机器人软件与模型集成到 CI/CD 平台中; 4、与跨部门团队紧密合作,确保软件解决方案的兼容性和性能优化,推动项目成功落地; 5、积极探索新兴技术与工程领域,影响并参与团队的技术决策。

更新于 2025-07-14深圳|北京|上海