logo of xiaohongshu

小红书大模型-Agentic RL框架研发工程师

社招全职3-5年引擎地点:北京 | 上海状态:招聘

任职要求


【任职资格】
1.熟练掌握Megatron/DeepSpeed/FSDP等框架的研发,熟练掌握模型并行分布式技术
2.对大语言模型算法感兴趣,有机器学习算法知识背景,因为我们日常也会训练模型来确保框架的正…
登录查看完整任职要求
微信扫码,1秒登录

工作职责


【业务介绍】小红书业务技术部-引擎架构团队,支撑社区、搜索、商业化等小红书核心业务落地AI技术
:
1. 参与/负责研发面向大语言模型(LLM)/多模态大模型(MLLM)的算法易用的Agentic-RL训练框架; 
2. 通过并行计算优化、分布式架构优化、异构调度等技术优化RL训练效率
包括英文材料
Megatron+
DeepSpeed+
FSDP+
还有更多 •••
相关职位

logo of didi
校招工程-后端类

1、参与大模型训练框架的开发、维护 2、参与Agentic RL 训练框架的开发、优化 3、和算法一起在网约车场景落地Agentic RL。

更新于 2025-08-21杭州|北京
logo of amap
社招3年以上技术类-算法

1. 构建后训练专用高性能架构,支持从SFT到RLHF/Agentic RL的全流程调优,为RM模型训练、PPO等复杂算法提供千卡级别的超大规模分布式训练支持,攻克特定阶段的性能瓶颈。 2. 打造极致推理与服务引擎,优化针对RLHF/Agentic RL流程中多个模型的交互式推理链路,通过编译优化、动态批处理、量化等技术,实现高吞吐、低延迟的模型服务,确保用户体验的流畅性。 3. 释放异构硬件最大潜能,深入CPU/GPU/NPU等底层硬件,通过CUDA内核定制、通信库优化(如RDMA)及MLIR/TRITON等编译技术,旨在将硬件性能压榨到极致,以应对高德海量用户与场景的挑战。

更新于 2025-09-23北京
logo of antgroup
社招2年以上技术类-开发

1. 面向安全领域对抗式、判别式等特色智能化场景,设计和研发分布式训练和推理引擎基础设施,支持超长上下文等安全业务特色需求; 2. 针对Agentic RL等大模型研发范式,诊断并优化算力和显存消耗,提升训练推理规模和性能,提供支持故障恢复的高可用引擎系统; 3. 对推理服务引擎、系统和链路进行全面优化,降低大模型服务成本,提升推理效率,增强服务稳定性; 4. 对安全场景的大模型研发重点难点问题攻坚克难,进行技术创新突破,跟进和超越业界SOTA;

更新于 2026-02-03北京|杭州
logo of meituan
社招5年以上核心本地商业-美

技术研发与创新 主导 Agentic RL 系统的架构设计和前沿算法研发 将学术前沿(NeurIPS、ICLR 等会议技术方案)快速转化为美团特有的业务价值 针对本地生活场景,设计突破性的奖励函数和学习机制 建立 Agent 系统的 Scaling Law,指导大规模部署的技术路线 项目驱动与落地 推动 Agent RL 系统从研究到生产环节,确保算法的稳定性、可靠性和效率 与产品、工程团队深度合作,将研究成果转化为实际业务收益 团队领导与人才培养 组建和领导一支在 RL 和 Agent 领域的高水平研究团队 制定团队的技术战略和发展规划 指导团队成员的学术输出和技术成长 培养团队的工程实践能力,建立高效的算法开发和迭代流程

更新于 2025-11-24北京