小红书【Ace顶尖实习生】多智能体端到端强化学习技术研究
任职要求
1、不限年级,本科及以上在读,计算机/人工智能/软件工程等相关专业优先; 2、优秀的代码能力、数据结构和基础算法功底,熟悉Python等至少一门编程语言; 3、熟悉大模型领域尤其是强化学习相关研究工作…
工作职责
多智能体已成为AI应用领域的关键技术,如何通过多智能体协作解决复杂任务是AI应用领域的研究热点。 本课题拟聚焦于端到端强化微调技术,通过事务级的规划和行动,结合代码生成、界面交互等能力对全场景工具进行调用,显著提升AI系统端到端解决复杂任务的能力。该研究将支持旅行攻略生成、运动健康规划等应用场景,重新定义AI垂类应用的能力边界和业务价值。
本课题研究如何优化向量检索技术以增强大型语言模型能力。 主要方向包括: 1、优化高维向量索引结构,实现千亿级多模态数据的高效检索; 2、设计多Agent场景下的智能检索增强生成(Agentic RAG)策略,探索检索结果与大模型上下文的最优融合方法; 3、研究基于向量检索优化大模型推理过程中的KV Cache机制,为智能体应用的效果优化和大模型推理提供关键技术支持。
随着广告系统从“流量匹配”向“深度理解”演进,传统的模型范式在面对用户动态变化的兴趣与复杂决策场景时,逐渐显露出语义理解浅、策略同质化等局限。本课题“面向千人千面Agent的广告大模型能力构建”,旨在探索如何利用大语言模型结合广告个性化投放系统赋予智能体的核心能力,实现真正意义上的个性化智慧决策。 该课题会结合个性化建模、内容理解、大语言模型等能力,对用户心智做深度建模,依赖于历史行为长记忆的同时,能利用自然语言理解用户实时的微观意图、情感倾向与潜在需求。基于不同用户及不同上下文,能为不同用户量身定制差异化的广告投放,并且Agent能够以自然语言阐述其推理依据,让投放逻辑从“黑盒”走向透明,同时通过与用户反馈的持续交互,不断自我修正与进化。 这里面涉及到多方面的能力研究,包括基于内容的个性化能力的构建,个性化能力与大语言模型能力的结合,多模态融合能力,面向广告投放Agentic能力的微调能力以及面向广告投放系统的应用。
大语言模型的对齐需求及复杂环境下的多智能体协作,要求训练系统具备处理海量采样数据与高频梯度更新的能力,传统的单机或小规模集群已难以满足算力与吞吐的指数级增长。 本课题旨在研究并构建一套高扩展、低延迟的大规模RL训练框架,核心内容涵盖分布式采样引擎的优化、异构算力资源的高效调度、以及计算与通信的深度并行化策略。然而,该领域面临着严峻的技术挑战: 一是如何在保持高吞吐采样(High Throughput)的同时,解决分布式环境下数据回传的通信瓶颈(Communication Bottleneck); 二是针对RL特有的数据非平稳性,如何保障在大规模异步训练下的算法收敛稳定性与超参数鲁棒性;三是涉及CPU仿真环境与GPU神经网络训练之间的精细负载均衡,以最大化集群利用率并降低昂贵的训练成本。
1、 根据集团战略发展方向,拓展浙江省地市政府、央国企领域及体制内目标客户和合作伙伴的云业务; 2、 负责地市政务关系管理,制定并推动区域、行业、重点客户市场拓展计划并执行; 3、针对数字政务、医疗、城市大脑、城市智算、行业大模型等领域,拉通政府及合作伙伴资源,挖掘和引导需求,创造商业机会; 4、与客户或合作伙伴进行重点项目对接,积极有效的推动合同拟定、谈判等商务流程; 5、协调公司内部产品、研发、运维、财务、法务等资源,积极有效的推动合同拟定、谈判等商务流程,高效达成销售业绩; 6、与政企客户和合作伙伴建立长期积极互动关系,促进阿里云政企业务的良性发展。