小红书【Ace顶尖实习生】交互式进化审核 Agent 系统研究

校招全职策略算法2026-07-01地点：北京 | 上海 | 杭州状态：招聘

扫码手机上打开

任职要求

1、不限年级，本科及以上在读，计算机/人工智能/软件工程等相关专业优先；
2、优秀的代码能力、数据结构和基础算法功底，熟悉Python等至少一门编程语言；
3、熟悉大模型领域尤其是强化学习相关研究工作…

登录查看完整任职要求

微信扫码，1秒登录

工作职责

本课题旨在探索一种基于“教学—纠正”闭环的交互式进化审核 Agent 系统，致力于打破传统审核模型对静态规则与大规模标注样本的依赖，实现“规则—策略”的自动生成优化反馈闭环。

不同于通用 Agent，该系统强调在复杂、多变的国际化内容审核场景中，通过引入 Policy Maker 的实时干预与 Rule Set 的动态反馈，实现从“规则驱动”向“智能进化”的范式迁移。研究核心在于构建一套集成经验进化学习、在线学习及 RLRF（基于反馈的强化学习）的复合技术架构。关键问题包括：如何将抽象的审核政策（Policy）自动化解析为可执行的 Agent 策略链路，如何在跨语言、跨文化背景下构建具备自主学习能力的 Agent 基座，以及如何在极度稀疏的违规样本中利用小样本（Few-shot）实现风险域的“0 人审”冷启动。

📮 投递简历 ✨AI模拟面试

难度：

包括英文材料

数据结构+

算法+

Python+

大模型+

还有更多 •••

登录查看完整学习资料

相关职位

【Ace顶尖实习生】基于Agent的交互式推荐系统

校招策略算法

传统的推荐系统通常被称为“猜你喜欢”，主要依赖用户的历史行为来推荐（猜）用户可能喜欢的物品。从大量用户之声的数据看，很多用户对推荐结果并不满意，提出了明确的改进诉求，但传统推荐系统无法理解这些诉求。基于Agent的交互式推荐系统旨在为用户提供一个智能助理，让用户通过自然语言表达自己对推荐结果的定制化需求（如多出/少出哪类内容），再通过调用相关skills来干预推荐结果以满足用户需求，让用户跟推荐系统间实现自然的交互，颠覆传统只靠”猜“的推荐模式。这种针对性满足用户需求的功能一定可以大幅提升用户的满意度，增加用户粘性。这其中有很多技术问题需要解决，包括用户需求的理解、skills的编排调用、物品内容和用户指令间相关性的识别、用户指令特征跟行为特征的融合等，很值得深入研究。

更新于 2026-07-26北京|上海|杭州

【Ace顶尖实习生】端到端的全双工自然语音交互

校招多媒体算法

本课题围绕点点、搜索等依赖自然人机交互的业务场景，打造面向AI agent的端到端全双工自然语音交互能力，预期构建具有小红书特色的最低延迟、最具人感、最懂用户的语音Agent。重点攻克如何打造真实自然稳定的拟人感语音交互难题。其细分研究方向大模型语音内容理解【最懂用户】、可控对话式大模型语音合成【最具人感】、全双工speechLLM【最低延迟】等。

更新于 2026-07-01北京|上海|杭州

【Ace顶尖实习生】Agentic RL技术研究

校招大模型

关注如何将RL引入工业级Agent平台系统，直接对“规划—执行—反馈”的完整轨迹进行优化。研究重点包括：如何构建trajectory-level reward、如何在工具调用与多步推理中进行credit assignment，以及如何在高成本环境下进行高效的offline/online混合训练。平台提供真实任务环境与多样化Agent执行数据，使研究从离线benchmark走向真实交互场景。该方向有望推动RL从模型对齐走向复杂任务能力学习，形成新一代Agent优化范式。

更新于 2026-04-06北京|上海|杭州

【Ace顶尖实习生】Agent Self-Evolution via Real-World Interaction

校招大模型

探索一种自进化Agent系统，使Agent能够在真实环境中通过持续交互不断优化自身能力。不同于静态模型训练，该方向强调“生成—执行—评估—更新”的闭环过程。关键问题包括：如何基于真实任务构建可靠的反馈信号，如何从稀疏成功案例中提取可泛化策略，以及如何避免自我强化中的分布偏移与错误积累。平台提供多场景Agent执行环境与完整轨迹数据，使得自进化机制可以在真实任务中验证。该方向旨在推动Agent从“被动能力载体”向“主动学习系统”转变，是实现长期智能演进的重要路径。

更新于 2026-04-06北京|上海|杭州