logo of xiaohongshu

小红书【Ace顶尖实习生】交互式进化审核 Agent 系统研究

校招全职策略算法地点:北京 | 上海 | 杭州状态:招聘

任职要求


1、不限年级,本科及以上在读,计算机/人工智能/软件工程等相关专业优先;
2、优秀的代码能力、数据结构和基础算法功底,熟悉Python等至少一门编程语言;
3、熟悉大模型领域尤其是强化学习相关研究工作…
登录查看完整任职要求
微信扫码,1秒登录

工作职责


本课题旨在探索一种基于“教学—纠正”闭环的交互式进化审核 Agent 系统,致力于打破传统审核模型对静态规则与大规模标注样本的依赖,实现“规则—策略”的自动生成优化反馈闭环。

不同于通用 Agent,该系统强调在复杂、多变的国际化内容审核场景中,通过引入 Policy Maker 的实时干预与 Rule Set 的动态反馈,实现从“规则驱动”向“智能进化”的范式迁移。研究核心在于构建一套集成经验进化学习、在线学习及 RLRF(基于反馈的强化学习)的复合技术架构。关键问题包括:如何将抽象的审核政策(Policy)自动化解析为可执行的 Agent 策略链路,如何在跨语言、跨文化背景下构建具备自主学习能力的 Agent 基座,以及如何在极度稀疏的违规样本中利用小样本(Few-shot)实现风险域的“0 人审”冷启动。
包括英文材料
数据结构+
算法+
Python+
大模型+
还有更多 •••
相关职位

logo of xiaohongshu
校招多媒体算法

本课题围绕点点、搜索等依赖自然人机交互的业务场景,打造面向AI Agent的端到端全双工自然语音交互能力,预期构建具有小红书特色的最低延迟、最具人感、最懂用户的语音Agent。 重点攻克如何打造真实自然稳定的拟人感语音交互难题。其细分研究方向大模型语音内容理解【最懂用户】、可控对话式大模型语音合成【最具人感】、全双工speechLLM【最低延迟】等。

更新于 2026-03-24北京|上海|杭州
logo of xiaohongshu
校招大模型

探索一种自进化Agent系统,使Agent能够在真实环境中通过持续交互不断优化自身能力。不同于静态模型训练,该方向强调“生成—执行—评估—更新”的闭环过程。 关键问题包括:如何基于真实任务构建可靠的反馈信号,如何从稀疏成功案例中提取可泛化策略,以及如何避免自我强化中的分布偏移与错误积累。 平台提供多场景Agent执行环境与完整轨迹数据,使得自进化机制可以在真实任务中验证。该方向旨在推动Agent从“被动能力载体”向“主动学习系统”转变,是实现长期智能演进的重要路径。

更新于 2026-04-06北京|上海|杭州
logo of xiaohongshu
校招大模型

我们致力于构建可持续进化的 Agent 系统:让 Agent 在真实环境中通过交互、学习与数据闭环,不断提升复杂任务能力。 围绕“数据 → 学习 → 自进化”三位一体展开: - Agent 自进化: 基于真实任务轨迹与反思机制,提升 Agent 在长期交互中的自主学习能力,解决反馈建模、策略泛化与错误累积问题。 - RL for Agent Systems: 将强化学习引入 Agent 全链路(规划-执行-反馈),研究 trajectory-level reward、credit assignment 及 offline/online 混合训练。 - Agentic Data Construction: 构建由 Agent 主导的数据生产与筛选机制,形成“生成 → 评估 → 反哺”的数据闭环,持续放大模型能力。

更新于 2026-04-07北京|上海|杭州
logo of xiaohongshu
校招大模型

多智能体已成为AI应用领域的关键技术,如何通过多智能体协作解决复杂任务是AI应用领域的研究热点。 本课题拟聚焦于端到端强化微调技术,通过事务级的规划和行动,结合代码生成、界面交互等能力对全场景工具进行调用,显著提升AI系统端到端解决复杂任务的能力。该研究将支持旅行攻略生成、运动健康规划等应用场景,重新定义AI垂类应用的能力边界和业务价值。

更新于 2025-12-19北京|上海|杭州