美团【北斗】推荐算法研究员(生成式推荐/大模型推荐/强化学习)
任职要求
1.研究方向为人工智能、大语言模型、搜索推荐、强化学习,硕士以上学历。 2.在顶级期刊或国际会议(如CCF-A)上,以第一作者发表论文;或者在顶级竞赛上获奖。 3.专业成绩排名top1%,或者有国内外顶尖团队大语言模型、搜索推荐等相关方向实习经历,并有突出工作成果; 4.具有优异的理解能力和逻辑思维能力,能够在复杂场景下分解和抽象问题,提供优秀、完整、可行的解决方案; 5.对解决挑战性问题充满激情,较强的责任心、主动性和韧性,能良好的沟通协作。
工作职责
研究方向一:基于生成式推荐的CTR预估新范式 该方向研究在生成式推荐架构下,如何发挥算力优势,重构当前搜推排序架构体系,实现有限资源下累计收益最大化。关键问题如下: 1.在训练、推理上发挥生成式架构算力优势:针对超长用户行为序列探索生成式架构下Scaling Law,基于美团LBS特点高效捕捉用户兴趣。 2.建设全场景生成式推荐算法:基于超大算力的生成式架构,建设多业务线统一排序算法;采用预训练+SFT、KV Cache等技术,建设多业务下统一的训练、推理服务架构。 3.全链路端到端统一建模:利用生成式架构优点统筹多阶段漏斗,彻底改变当前繁重的多阶段迭代模式,建设出既能互相协同与配合、且目标又充分一致的新算法链路。 研究方向二:面向即时零售场景的大模型驱动用户兴趣建模与场景化推荐方法研究 随着大语言模型(LLM)在自然语言处理、知识推理等领域的广泛应用,如何将其与零售业务深度融合,提升即时零售场景下的用户兴趣理解与个性化推荐水平,成为智能推荐领域的重要研究方向。本课题旨在突破传统推荐系统对用户兴趣建模的局限,充分挖掘大模型的语义理解、知识推理与泛化能力,推动零售行业智能化升级。关键问题如下: 1.探索并实现大模型与零售业务领域知识的高效融合机制,系统评估监督微调(SFT)、检索增强生成(RAG)等多种集成方案在场景化推荐中的适用性与性能表现。 2.构建面向即时零售场景的用户兴趣建模体系,利用大模型对用户行为、商品属性、场景上下文等多维数据进行深度语义建模,提升用户兴趣刻画的准确性与动态性。 3.研发场景化推荐推理框架,基于大模型的推理能力,实现对用户个性化需求的精准预测与推荐,显著提升即时零售平台的用户体验和转化效率。
研究方向一:下一代端到端生成式 广告大模型系统广告系统一般采用“召回->粗排->精排->出价->拍卖”的多级漏斗架构,但各模块独立优化导致优化目标不一致,前链路会制约后链路上限,漏斗效率折损大。近年来,随着大模型和生成式技术的快速发展,其强大的表征能力和良好的Scaling性质也为广告系统提供了新的可能性。本研究旨在探索如何利用生成式技术重塑整个广告系统,通过一个端到端的生成式广告大模型完成所有决策,打破多级漏斗框架,打开模型决策空间,最大化平台收益。 1.生成式广告大模型架构设计:基于前沿大模型(如时空Transformer、MLA、MoE等),设计适配广告场景的生成式决策框架,支持根据“用户行为、实时位置、商户出价”端到端生成最优的广告商家、展示创意、相应计费。 2.多阶段的训练范式设计:借鉴LLM的分阶段训练技术(如PT、SFT、RLHF等),设计“基于海量交互的 pre-training 和 基于业务目标的 post-training ”的分阶段训练范式,提升广告大模型效果。 3.广告大模型的Scaling规律探索:探索广告场景下,生成式大模型“算力->效果”的转化规律,驱动推广搜迭代范式实现由“人工设计迭代”到“算力堆叠迭代”的跃迁。 研究方向二:基于大模型重构广告系统 传统的向量召回和深度学习推荐范式在深度交互、冷启动、长尾商品发现、多场景适配等方面仍存在诸多挑战。 大模型具备强大的内容理解、知识推理和个性化内容生成能力。以大模型为核心,通过将用户历史行为、上下文信息、多模态内容等深度融合,实现用户意图的主动理解、候选内容的生成与多场景下的精准推荐,极大提升广告系统召回、粗排、精排、拍卖等模块的能力上界。 1.领域LLM 构建:基于sota 基座模型,系统性整合美团用商双端数据,通过PT、SFT、RLHF等方式构建适配外卖/到餐领域的垂直领域LLM,快速支持商业广告系统多大模型应用落地; 2.基于强化学习+领域LLM 的通用广告解决方案:基于领域LLM,结合GRPO等强化学习技术,探索广告召回、粗排、精排建模的新范式,探索广告领域建模的scaling law; 3.结合广告业务场景与大模型前沿技术,探索改造广告算法链路的创新方向,实现广告算法链路的大规模升级及核心指标的显著提升。
调度决策模型探索 1.针对调度系统内多样的调度决策行为进行分析,包括但不限于过滤、压单、指派、推荐、改派等,尝试基于模仿学习、强化学习等方法对已有的调度决策行为进行端到端建模,提升调度效果。 2.针对调度系统分城市、分业务、分时段的差异化特点,探索场景化适配的模型预测、决策能力,提升调度决策系统在不同场景下的适配能力。 3. 基于订单结构挖掘与优质骑手行为学习,实现多对一订单-骑手匹配问题的分布式实时(秒级)求解,同时合理刻画订单匹配长周期收益,实现调度匹配序贯决策时空全局优化,将日益增长的订单密度,在性能约束下极大程度兑现为骑手效率增益。
【课题说明】 传统的向量召回和深度学习推荐范式在深度交互、冷启动、长尾商品发现、多场景适配等方面仍存在诸多挑战。生成式推荐系统以大模型为核心,具备强大的内容理解、知识推理和个性化内容生成能力。通过将用户历史行为、上下文信息、多模态内容等深度融合,生成式推荐系统能够实现用户意图的主动理解、候选内容的生成与多场景下的精准推荐,极大提升用户体验和平台生态活力。 【建议研究方向】 1.生成式召回:研究基于大模型的生成式召回方法,实现以模型参数为载体的候选内容记忆与生成,突破传统召回技术的局限。 2.多轮交互推荐技术:探索多轮用户引导与深度交互机制,实时理解用户意图变化,满足“千人千面”的个性化需求。 3.推荐系统的可解释性与安全性:研究大模型驱动的推荐逻辑可解释性方法,提升用户对推荐决策的理解和信任。同时探索生成式推荐中的内容安全,保障推荐系统的合规性与用户体验。 4.推荐智能体与复杂任务规划:构建具备推理、规划和自主决策能力的推荐智能体,支持跨领域、跨步骤的复杂任务推荐。
【课题说明】 Agentic Search是以大模型为核心,具备自主感知、推理与行动能力的搜索新范式。它通过理解用户复杂意图,动态规划搜索路径,主动调用多种工具和数据源,持续优化结果推荐与交互体验。本课题旨在研究和构建面向美团App本地生活服务的Agentic Search系统,探索其在多轮对话、复杂任务分解、实时信息整合等场景下的关键技术与应用价值,推动本地生活智能搜索技术的创新升级。 【建议研究方向】 1.意图理解与任务分解:探索大模型在复杂用户需求下的多意图识别、任务分解、子任务规划能力,提升系统对复合型检索场景的适应性和响应能力。 2.多轮工具调用技术研究:赋予LLM长链路的多轮工具调用能力,打造基于强化学习等前沿技术的LLM后训练方案,提升多轮调用时的精确性及用户的实际交互体验。 3.增量学习训练技术探索:针对本地生活场景中数据不断更新的特点,运用增量学习技术,使 AI 搜索模型能够快速适应新数据。 搜索结果可解释性提升:探索基于大模型内容深度理解与推理的可解释理由生成,增强用户对搜索结果的信任感和透明度。