小红书【Ace顶尖实习生】Agent Self-Evolution via Real-World Interaction

校招全职大模型2026-04-06地点：北京 | 上海 | 杭州状态：招聘

扫码手机上打开

任职要求

1、不限年级，本科及以上在读，计算机/人工智能/软件工程等相关专业优先；
2、扎实的编程能力和算法功底，熟练掌握Python/C++/Java等至少一种编程语言；
3、扎实的机器学习/深度学习理论基础，有大规模推荐系统、计算广告、搜索引擎等核心算法项目经验；
3、有LLM/MLLM等多模态理解技术背景，…

登录查看完整任职要求

微信扫码，1秒登录

工作职责

探索一种自进化Agent系统，使Agent能够在真实环境中通过持续交互不断优化自身能力。不同于静态模型训练，该方向强调“生成—执行—评估—更新”的闭环过程。

关键问题包括：如何基于真实任务构建可靠的反馈信号，如何从稀疏成功案例中提取可泛化策略，以及如何避免自我强化中的分布偏移与错误积累。

平台提供多场景Agent执行环境与完整轨迹数据，使得自进化机制可以在真实任务中验证。该方向旨在推动Agent从“被动能力载体”向“主动学习系统”转变，是实现长期智能演进的重要路径。

📮 投递简历 ✨AI模拟面试

难度：

包括英文材料

算法+

Python+

C+++

Java+

机器学习+

深度学习+

推荐系统+

还有更多 •••

登录查看完整学习资料

相关职位

【Ace顶尖实习生】基于Agent框架的AI搜索基座大模型

校招策略算法

传统的AI搜索依然基于RAG框架，少有的几个Agent框架也只涉及QueryPlanning，距离真实解决搜索中的实际问题还相距很远，例如做旅游攻略、做行业研究报告等等。我们判断，虽然当下LLM已经大范围的用于搜索领域，但是下一代的搜索技术变革一定是基于Agent的。本课题旨在研究基于Agent框架的基座模型。

更新于 2026-07-27北京|杭州|上海

【Ace顶尖实习生】基于agent技术的商业化AI代理研究

校招策略算法

在商业化业务中，尤其是腰尾客户的广告投放过程中，平台的复杂度和需求的匹配落地是巨大的卡点，通常需要代理商和投手去服务；同时过程中成本和服务质量都是不确定性很高的变量，对于商家的经营有着巨大的影响。通过AI代理的研究，能够在了解客户需求的前提下（通过sop可以明确绝大部分需求），通过系统内部更精准的数据，以及可直接操作落地的skill（API接口），实现交互式的高质量执行落地，大幅提升客户的投放效率，同时提升平台有限流量下的客户承载能力，最终实现平台收入提升的目的。过程中涉及到诸多技术方向，包括但不限于商业化诉求理解、基于agentic rag的信息提取、更精准更个性化的memory机制设计、multi-agent流程设计（和客服、aigc等agent交互）；具体技术手段如通过如知识图谱做信息管理、过程管理等手段提供精准交互，通过后训练、AI Infra的优化实现小红书营销策略的下放。

更新于 2026-07-27北京|上海|杭州

【Ace顶尖实习生】基于Agent的交互式推荐系统

校招策略算法

传统的推荐系统通常被称为“猜你喜欢”，主要依赖用户的历史行为来推荐（猜）用户可能喜欢的物品。从大量用户之声的数据看，很多用户对推荐结果并不满意，提出了明确的改进诉求，但传统推荐系统无法理解这些诉求。基于Agent的交互式推荐系统旨在为用户提供一个智能助理，让用户通过自然语言表达自己对推荐结果的定制化需求（如多出/少出哪类内容），再通过调用相关skills来干预推荐结果以满足用户需求，让用户跟推荐系统间实现自然的交互，颠覆传统只靠”猜“的推荐模式。这种针对性满足用户需求的功能一定可以大幅提升用户的满意度，增加用户粘性。这其中有很多技术问题需要解决，包括用户需求的理解、skills的编排调用、物品内容和用户指令间相关性的识别、用户指令特征跟行为特征的融合等，很值得深入研究。

更新于 2026-07-27北京|上海|杭州

【Ace顶尖实习生】基础大模型Agent能力研究

校招大模型

我们致力于构建可持续进化的 Agent 系统：让 Agent 在真实环境中通过交互、学习与数据闭环，不断提升复杂任务能力。围绕“数据 → 学习 → 自进化”三位一体展开： - Agent 自进化：基于真实任务轨迹与反思机制，提升 Agent 在长期交互中的自主学习能力，解决反馈建模、策略泛化与错误累积问题。 - RL for Agent Systems：将强化学习引入 Agent 全链路（规划-执行-反馈），研究 trajectory-level reward、credit assignment 及 offline/online 混合训练。 - Agentic Data Construction：构建由 Agent 主导的数据生产与筛选机制，形成“生成 → 评估 → 反哺”的数据闭环，持续放大模型能力。

更新于 2026-07-28北京|上海|杭州