小红书模型开发工程师
社招全职3-5年后端开发地点:杭州 | 上海状态:招聘
任职要求
1、工程能力扎实,具备复杂 AI 系统(训练或推理)从设计到落地的完整经验,能够独立负责一个子系统并对其长期演进负责,具备深入主流框架进行定制化改造能力; 2、理解强化学习核心算法(如 PPO / GRPO 等)及其在大模型或 Agent 场景中的应用,有端到端 Agent 训练或多轮交互系统的实践经验; 3、具备推理优化实战经验,熟悉 vLLM、SGLang 等推理框架,理解 KV Cache、Batc…
登录查看完整任职要求
微信扫码,1秒登录
工作职责
岗位描述 我们正在建设一套面向内容安全场景的 Agentic RL 训推一体基础设施,打通从数据合成、强化学习训练、评测闭环,到推理优化与模型生命周期管理的完整链路。 这是一个高度复杂且尚未被标准化的问题:在多轮交互与长上下文条件下,如何让 Agent 稳定学习与持续进化?如何在真实业务中建立训练与推理的闭环?如何在效果与成本之间找到可规模化的工程解法? 我们希望你不仅能够实现模块,而是能够负责一个方向的系统设计与落地——从问题定义、方案设计,到工程实现与持续演进。这是一个位于「模型 × 系统 × Agent」交叉点的岗位——你既要能深入框架内核做定制改造,也要能在系统层面做出正确的架构判断。 工作职责 1、负责 Agentic RL 训推一体基础设施中一个或多个核心子系统(如训练框架、推理系统、Agent 执行框架等)的设计与落地,并对其长期演进负责; 2、主导复杂问题的技术拆解与方案设计,例如多轮轨迹建模、长上下文训练效率优化、强化学习稳定性提升等,并推动工程实现; 3、构建并优化大模型训练与推理链路,提升系统在真实审核场景下的效果与效率,系统性降低推理成本; 4、推动 Agent 工程体系建设(Tool Use、Multi-Agent 协同、任务编排等),将复杂审核任务抽象为可复用的系统能力; 5、建立训练-评测-推理的闭环反馈机制,推进 Agent 与模型的协同优化(co-optimization)。
包括英文材料
强化学习+
https://cloud.google.com/discover/what-is-reinforcement-learning?hl=en
Reinforcement learning (RL) is a type of machine learning where an "agent" learns optimal behavior through interaction with its environment.
https://huggingface.co/learn/deep-rl-course/unit0/introduction
This course will teach you about Deep Reinforcement Learning from beginner to expert. It’s completely free and open-source!
https://www.kaggle.com/learn/intro-to-game-ai-and-reinforcement-learning
Build your own video game bots, using classic and cutting-edge algorithms.
算法+
https://roadmap.sh/datastructures-and-algorithms
Step by step guide to learn Data Structures and Algorithms in 2025
https://www.hellointerview.com/learn/code
A visual guide to the most important patterns and approaches for the coding interview.
https://www.w3schools.com/dsa/
大模型+
https://www.youtube.com/watch?v=xZDB1naRUlk
You will build projects with LLMs that will enable you to create dynamic interfaces, interact with vast amounts of text data, and even empower LLMs with the capability to browse the internet for research papers.
https://www.youtube.com/watch?v=zjkBMFhNj_g
还有更多 •••