小红书模型开发工程师

社招全职3-5年后端开发2026-05-29地点：杭州 | 上海状态：招聘

扫码手机上打开

任职要求

1、工程能力扎实，具备复杂 AI 系统（训练或推理）从设计到落地的完整经验，能够独立负责一个子系统并对其长期演进负责，具备深入主流框架进行定制化改造能力；
2、理解强化学习核心算法（如 PPO / GRPO 等）及其在大模型或 Agent 场景中的应用，有端到端 Agent 训练或多轮交互系统的实践经验；
3、具备推理优化实战经验，熟悉 vLLM、SGLang 等推理框架，理解 KV Cache、Batc…

登录查看完整任职要求

微信扫码，1秒登录

工作职责

岗位描述
我们正在建设一套面向内容安全场景的 Agentic RL 训推一体基础设施，打通从数据合成、强化学习训练、评测闭环，到推理优化与模型生命周期管理的完整链路。
这是一个高度复杂且尚未被标准化的问题：在多轮交互与长上下文条件下，如何让 Agent 稳定学习与持续进化？如何在真实业务中建立训练与推理的闭环？如何在效果与成本之间找到可规模化的工程解法？
我们希望你不仅能够实现模块，而是能够负责一个方向的系统设计与落地——从问题定义、方案设计，到工程实现与持续演进。这是一个位于「模型 × 系统 × Agent」交叉点的岗位——你既要能深入框架内核做定制改造，也要能在系统层面做出正确的架构判断。
工作职责
1、负责 Agentic RL 训推一体基础设施中一个或多个核心子系统（如训练框架、推理系统、Agent 执行框架等）的设计与落地，并对其长期演进负责；
2、主导复杂问题的技术拆解与方案设计，例如多轮轨迹建模、长上下文训练效率优化、强化学习稳定性提升等，并推动工程实现；
3、构建并优化大模型训练与推理链路，提升系统在真实审核场景下的效果与效率，系统性降低推理成本；
4、推动 Agent 工程体系建设（Tool Use、Multi-Agent 协同、任务编排等），将复杂审核任务抽象为可复用的系统能力；
5、建立训练-评测-推理的闭环反馈机制，推进 Agent 与模型的协同优化（co-optimization）。

📮 投递简历 ✨AI模拟面试

难度：

包括英文材料

强化学习+

算法+

大模型+

还有更多 •••

登录查看完整学习资料