logo of xiaohongshu

小红书【Ace顶尖实习生】基于Agent的交互式推荐系统

校招全职策略算法地点:北京 | 上海 | 杭州状态:招聘

任职要求


1、不限年级,本科及以上在读,计算机/人工智能/软件工程等相关专业优先;
2、精通TensorflowPytorch等工具,了解深度学习技术,具有模型优化经验;
3、熟悉Linux开发环境,熟练掌握C++,python,Shell等编程语言,对数据结构与算法有深…
登录查看完整任职要求
微信扫码,1秒登录

工作职责


传统的推荐系统通常被称为“猜你喜欢”,主要依赖用户的历史行为来推荐(猜)用户可能喜欢的物品。从大量用户之声的数据看,很多用户对推荐结果并不满意,提出了明确的改进诉求,但传统推荐系统无法理解这些诉求。基于Agent的交互式推荐系统旨在为用户提供一个智能助理,让用户通过自然语言表达自己对推荐结果的定制化需求(如多出/少出哪类内容),再通过调用相关skills来干预推荐结果以满足用户需求,让用户跟推荐系统间实现自然的交互,颠覆传统只靠”猜“的推荐模式。这种针对性满足用户需求的功能一定可以大幅提升用户的满意度,增加用户粘性。

这其中有很多技术问题需要解决,包括用户需求的理解、skills的编排调用、物品内容和用户指令间相关性的识别、用户指令特征跟行为特征的融合等,很值得深入研究。
包括英文材料
TensorFlow+
PyTorch+
深度学习+
Linux+
还有更多 •••
相关职位

logo of xiaohongshu
校招策略算法

在商业化业务中,尤其是腰尾客户的广告投放过程中,平台的复杂度和需求的匹配落地是巨大的卡点,通常需要代理商和投手去服务;同时过程中成本和服务质量都是不确定性很高的变量,对于商家的经营有着巨大的影响。通过AI代理的研究,能够在了解客户需求的前提下(通过sop可以明确绝大部分需求),通过系统内部更精准的数据,以及可直接操作落地的skill(API接口),实现交互式的高质量执行落地,大幅提升客户的投放效率,同时提升平台有限流量下的客户承载能力,最终实现平台收入提升的目的。 过程中涉及到诸多技术方向,包括但不限于 商业化诉求理解、基于agentic rag的信息提取、更精准更个性化的memory机制设计、multi-agent流程设计(和客服、aigc等agent交互);具体技术手段如通过如知识图谱做信息管理、过程管理等手段提供精准交互,通过后训练、AI Infra的优化实现小红书营销策略的下放。

更新于 2026-06-11北京|上海|杭州
logo of xiaohongshu
校招策略算法

本课题旨在探索一种基于“教学—纠正”闭环的交互式进化审核 Agent 系统,致力于打破传统审核模型对静态规则与大规模标注样本的依赖,实现“规则—策略”的自动生成优化反馈闭环。 不同于通用 Agent,该系统强调在复杂、多变的国际化内容审核场景中,通过引入 Policy Maker 的实时干预与 Rule Set 的动态反馈,实现从“规则驱动”向“智能进化”的范式迁移。研究核心在于构建一套集成经验进化学习、在线学习及 RLRF(基于反馈的强化学习)的复合技术架构。关键问题包括:如何将抽象的审核政策(Policy)自动化解析为可执行的 Agent 策略链路,如何在跨语言、跨文化背景下构建具备自主学习能力的 Agent 基座,以及如何在极度稀疏的违规样本中利用小样本(Few-shot)实现风险域的“0 人审”冷启动。

更新于 2026-06-11北京|上海|杭州
logo of xiaohongshu
校招策略算法

随着广告系统从“流量匹配”向“深度理解”演进,传统的模型范式在面对用户动态变化的兴趣与复杂决策场景时,逐渐显露出语义理解浅、策略同质化等局限。本课题“面向千人千面Agent的广告大模型能力构建”,旨在探索如何利用大语言模型结合广告个性化投放系统赋予智能体的核心能力,实现真正意义上的个性化智慧决策。 该课题会结合个性化建模、内容理解、大语言模型等能力,对用户心智做深度建模,依赖于历史行为长记忆的同时,能利用自然语言理解用户实时的微观意图、情感倾向与潜在需求。基于不同用户及不同上下文,能为不同用户量身定制差异化的广告投放,并且Agent能够以自然语言阐述其推理依据,让投放逻辑从“黑盒”走向透明,同时通过与用户反馈的持续交互,不断自我修正与进化。 这里面涉及到多方面的能力研究,包括基于内容的个性化能力的构建,个性化能力与大语言模型能力的结合,多模态融合能力,面向广告投放Agentic能力的微调能力以及面向广告投放系统的应用。

更新于 2026-06-11北京|上海|杭州
logo of xiaohongshu
校招大模型

我们致力于构建可持续进化的 Agent 系统:让 Agent 在真实环境中通过交互、学习与数据闭环,不断提升复杂任务能力。 围绕“数据 → 学习 → 自进化”三位一体展开: - Agent 自进化: 基于真实任务轨迹与反思机制,提升 Agent 在长期交互中的自主学习能力,解决反馈建模、策略泛化与错误累积问题。 - RL for Agent Systems: 将强化学习引入 Agent 全链路(规划-执行-反馈),研究 trajectory-level reward、credit assignment 及 offline/online 混合训练。 - Agentic Data Construction: 构建由 Agent 主导的数据生产与筛选机制,形成“生成 → 评估 → 反哺”的数据闭环,持续放大模型能力。

更新于 2026-06-11北京|上海|杭州