小红书【Ace顶尖实习生】多智能体端到端强化学习技术研究
任职要求
1、不限年级,本科及以上在读,计算机/人工智能/软件工程等相关专业优先; 2、优秀的代码能力、数据结构和基础算法功底,熟悉Python等至少一门编程语言; 3、熟悉大模型领域尤其是强化学习相关研究工作…
工作职责
多智能体已成为AI应用领域的关键技术,如何通过多智能体协作解决复杂任务是AI应用领域的研究热点。 本课题拟聚焦于端到端强化微调技术,通过事务级的规划和行动,结合代码生成、界面交互等能力对全场景工具进行调用,显著提升AI系统端到端解决复杂任务的能力。该研究将支持旅行攻略生成、运动健康规划等应用场景,重新定义AI垂类应用的能力边界和业务价值。
本课题研究如何优化向量检索技术以增强大型语言模型能力。 主要方向包括: 1、优化高维向量索引结构,实现千亿级多模态数据的高效检索; 2、设计多Agent场景下的智能检索增强生成(Agentic RAG)策略,探索检索结果与大模型上下文的最优融合方法; 3、研究基于向量检索优化大模型推理过程中的KV Cache机制,为智能体应用的效果优化和大模型推理提供关键技术支持。
随着广告系统从“流量匹配”向“深度理解”演进,传统的模型范式在面对用户动态变化的兴趣与复杂决策场景时,逐渐显露出语义理解浅、策略同质化等局限。本课题“面向千人千面Agent的广告大模型能力构建”,旨在探索如何利用大语言模型结合广告个性化投放系统赋予智能体的核心能力,实现真正意义上的个性化智慧决策。 该课题会结合个性化建模、内容理解、大语言模型等能力,对用户心智做深度建模,依赖于历史行为长记忆的同时,能利用自然语言理解用户实时的微观意图、情感倾向与潜在需求。基于不同用户及不同上下文,能为不同用户量身定制差异化的广告投放,并且Agent能够以自然语言阐述其推理依据,让投放逻辑从“黑盒”走向透明,同时通过与用户反馈的持续交互,不断自我修正与进化。 这里面涉及到多方面的能力研究,包括基于内容的个性化能力的构建,个性化能力与大语言模型能力的结合,多模态融合能力,面向广告投放Agentic能力的微调能力以及面向广告投放系统的应用。
本课题希望探索有效的统一大模型基座方案及提升多场景联合预训练的效果。目前公司内部不同业务场景下存在多套Embedding&标签大模型,部署成本较高,且应用在下游端到端建模任务如序列推荐时也多有不便,希望在多场景下对多套不同的Embedding&标签做整合,共用一套统一的基座模型,降低部署成本。同时通过融合的方式,对多场景数据进行综合建模,提升多场景的Embedding&标签效果。 统一基座模型需要解决的核心技术难点包括: 1、基座统一但仍可支持业务的定制微调,且训练成本和推理成本较低; 2、多体裁内容(如笔记、直播、商品、Query等)的理解可以融合在一个统一模型,且效果比独立训练更好。 研究方向会针对要解决的问题设立,包括:基于多Head或MoE的轻量化微调及融合推理、多体裁内容形式的统一建模。