logo of xiaohongshu

小红书模型开发工程师

社招全职3-5年后端开发地点:杭州 | 上海状态:招聘

任职要求


1、工程能力扎实,具备复杂 AI 系统(训练或推理)从设计到落地的完整经验,能够独立负责一个子系统并对其长期演进负责,具备深入主流框架进行定制化改造能力;
2、理解强化学习核心算法(如 PPO / GRPO 等)及其在大模型Agent 场景中的应用,有端到端 Agent 训练或多轮交互系统的实践经验;
3、具备推理优化实战经验,熟悉 vLLM、SGLang 等推理框架,理解 KV Cache、Batc…
登录查看完整任职要求
微信扫码,1秒登录

工作职责


岗位描述
我们正在建设一套面向内容安全场景的 Agentic RL 训推一体基础设施,打通从数据合成、强化学习训练、评测闭环,到推理优化与模型生命周期管理的完整链路。
这是一个高度复杂且尚未被标准化的问题:在多轮交互与长上下文条件下,如何让 Agent 稳定学习与持续进化?如何在真实业务中建立训练与推理的闭环?如何在效果与成本之间找到可规模化的工程解法?
我们希望你不仅能够实现模块,而是能够负责一个方向的系统设计与落地——从问题定义、方案设计,到工程实现与持续演进。这是一个位于「模型 × 系统 × Agent」交叉点的岗位——你既要能深入框架内核做定制改造,也要能在系统层面做出正确的架构判断。
工作职责
1、负责 Agentic RL 训推一体基础设施中一个或多个核心子系统(如训练框架、推理系统、Agent 执行框架等)的设计与落地,并对其长期演进负责;
2、主导复杂问题的技术拆解与方案设计,例如多轮轨迹建模、长上下文训练效率优化、强化学习稳定性提升等,并推动工程实现;
3、构建并优化大模型训练与推理链路,提升系统在真实审核场景下的效果与效率,系统性降低推理成本;
4、推动 Agent 工程体系建设(Tool Use、Multi-Agent 协同、任务编排等),将复杂审核任务抽象为可复用的系统能力;
5、建立训练-评测-推理的闭环反馈机制,推进 Agent 与模型的协同优化(co-optimization)。
包括英文材料
强化学习+
算法+
大模型+
还有更多 •••