小红书【Ace顶尖实习生】Agentic RL技术研究

校招全职大模型2026-04-06地点：北京 | 上海 | 杭州状态：招聘

扫码手机上打开

任职要求

1、不限年级，本科及以上在读，计算机/人工智能/软件工程等相关专业优先；
2、扎实的编程能力和算法功底，熟练掌握Python/C++/Java等至少一种编程语言；
3、扎实的机器学习/深度学习理论基础，有大规模推荐系统、计算广告、搜索引擎等核心算法项目经验；
3、有LLM/MLLM等多模态理解技术背景，…

登录查看完整任职要求

微信扫码，1秒登录

工作职责

关注如何将RL引入工业级Agent平台系统，直接对“规划—执行—反馈”的完整轨迹进行优化。
研究重点包括：如何构建trajectory-level reward、如何在工具调用与多步推理中进行credit assignment，以及如何在高成本环境下进行高效的offline/online混合训练。平台提供真实任务环境与多样化Agent执行数据，使研究从离线benchmark走向真实交互场景。该方向有望推动RL从模型对齐走向复杂任务能力学习，形成新一代Agent优化范式。

📮 投递简历 ✨AI模拟面试

难度：

包括英文材料

算法+

Python+

C+++

Java+

机器学习+

深度学习+

推荐系统+

还有更多 •••

登录查看完整学习资料

相关职位

【Ace顶尖实习生】Agent Self-Evolution via Real-World Interaction

校招大模型

探索一种自进化Agent系统，使Agent能够在真实环境中通过持续交互不断优化自身能力。不同于静态模型训练，该方向强调“生成—执行—评估—更新”的闭环过程。关键问题包括：如何基于真实任务构建可靠的反馈信号，如何从稀疏成功案例中提取可泛化策略，以及如何避免自我强化中的分布偏移与错误积累。平台提供多场景Agent执行环境与完整轨迹数据，使得自进化机制可以在真实任务中验证。该方向旨在推动Agent从“被动能力载体”向“主动学习系统”转变，是实现长期智能演进的重要路径。

更新于 2026-04-06北京|上海|杭州

【Ace顶尖实习生】基础大模型Agent能力研究

校招大模型

我们致力于构建可持续进化的 Agent 系统：让 Agent 在真实环境中通过交互、学习与数据闭环，不断提升复杂任务能力。围绕“数据 → 学习 → 自进化”三位一体展开： - Agent 自进化：基于真实任务轨迹与反思机制，提升 Agent 在长期交互中的自主学习能力，解决反馈建模、策略泛化与错误累积问题。 - RL for Agent Systems：将强化学习引入 Agent 全链路（规划-执行-反馈），研究 trajectory-level reward、credit assignment 及 offline/online 混合训练。 - Agentic Data Construction：构建由 Agent 主导的数据生产与筛选机制，形成“生成 → 评估 → 反哺”的数据闭环，持续放大模型能力。

更新于 2026-07-27北京|上海|杭州

【Ace顶尖实习生】大模型后训练泛化性研究

校招大模型

本课题聚焦小红书通用基座模型在真实业务 OOD 场景下的泛化性问题，围绕三个方向展开： 1）研究如何在训练阶段提升模型的 In-context Learning 与 OOD 泛化能力，包括任务抽象、数据构造、Prompt 模板改写与训练策略设计； 2）研究如何评测这些能力，建立真实 OOD 评测和面向领域任务构造的 ICL 能力评测方法，区分真正的泛化提升与同分布收益； 3）在模型固定的情况下，研究如何通过更好的 Context Engineering 提升模型在 OOD 任务上的表现。目标是沉淀可复用的训练、评测和 Context Engineering 方法，为小红书通用基座模型通过 Prompting 调用 API 更好服务业务提供支撑。

更新于 2026-07-27北京|上海|杭州

【Ace顶尖实习生】面向多语言的AI搜索检索和生成系统研究

校招策略算法

本课题的研究目标是打造行业领先的多语言能力强化的大语言模型，结合业务海量的多语言互译语料，以及平台生活化特色的笔记评论数据，利用数据合成、RL冷启训练、SFT和RLHF等技术，实现： 1、在小红书多语言大模型翻译场景取得领先效果； 2、多语言场景下，AI搜索的检索和生成技术。

更新于 2026-07-27北京|上海|杭州