logo of xiaohongshu

小红书【Ace顶尖实习生】Agentic RL技术研究

校招全职大模型地点:北京 | 上海 | 杭州状态:招聘

任职要求


1、不限年级,本科及以上在读,计算机/人工智能/软件工程等相关专业优先;
2、扎实的编程能力和算法功底,熟练掌握Python/C++/Java等至少一种编程语言;
3、扎实的机器学习/深度学习理论基础,有大规模推荐系统、计算广告、搜索引擎等核心算法项目经验;
3、有LLM/MLLM等多模态理解技术背景,…
登录查看完整任职要求
微信扫码,1秒登录

工作职责


关注如何将RL引入工业级Agent平台系统,直接对“规划—执行—反馈”的完整轨迹进行优化。
研究重点包括:如何构建trajectory-level reward、如何在工具调用与多步推理中进行credit assignment,以及如何在高成本环境下进行高效的offline/online混合训练。平台提供真实任务环境与多样化Agent执行数据,使研究从离线benchmark走向真实交互场景。该方向有望推动RL从模型对齐走向复杂任务能力学习,形成新一代Agent优化范式。
包括英文材料
算法+
Python+
C+++
Java+
机器学习+
深度学习+
推荐系统+
还有更多 •••
相关职位

logo of xiaohongshu
校招引擎

本课题研究如何优化向量检索技术以增强大型语言模型能力。 主要方向包括: 1、优化高维向量索引结构,实现千亿级多模态数据的高效检索; 2、设计多Agent场景下的智能检索增强生成(Agentic RAG)策略,探索检索结果与大模型上下文的最优融合方法; 3、研究基于向量检索优化大模型推理过程中的KV Cache机制,为智能体应用的效果优化和大模型推理提供关键技术支持。

更新于 2026-03-25上海|杭州|北京
logo of xiaohongshu
校招策略算法

传统的AI搜索依然基于RAG框架,少有的几个Agent框架也只涉及QueryPlanning,距离真实解决搜索中的实际问题还相距很远,例如做旅游攻略、做行业研究报告等等。我们判断,虽然当下LLM已经大范围的用于搜索领域,但是下一代的搜索技术变革一定是基于Agent的。本课题旨在研究基于Agent框架的基座模型。

更新于 2026-03-24北京|杭州|上海
logo of xiaohongshu
校招策略算法

本课题的研究目标是打造行业领先的多语言能力强化的大语言模型,结合业务海量的多语言互译语料,以及平台生活化特色的笔记评论数据,利用数据合成、RL冷启训练、SFT和RLHF等技术,实现: 1、在小红书多语言大模型翻译场景取得领先效果; 2、多语言场景下,AI搜索的检索和生成技术。

更新于 2026-03-24北京|上海|杭州
logo of xiaohongshu
校招多媒体算法

本课题围绕点点、搜索等依赖自然人机交互的业务场景,打造面向AI Agent的端到端全双工自然语音交互能力,预期构建具有小红书特色的最低延迟、最具人感、最懂用户的语音Agent。 重点攻克如何打造真实自然稳定的拟人感语音交互难题。其细分研究方向大模型语音内容理解【最懂用户】、可控对话式大模型语音合成【最具人感】、全双工speechLLM【最低延迟】等。

更新于 2026-03-24北京|上海|杭州