美团【北斗】生成式广告训练推理工程师(推理/训练/One Model架构)
任职要求
1.深入了解至少一种深度学习编程框架(TensorFlow/Pytorch/其它),对Cuda编程有实战经验的优先 2.深入理解Transformer架构,熟悉SFT、RLHF、DPO/PPO等训练算法;熟悉DeepSpeed、Megatron-LM等训练框架者优先 3.熟悉LLM主流推理引擎,如FasterTransformer、vLLM、TRT-LLM、SGLang等;熟悉常见的推理优化方法,如量化、FlashAttention、PD分离等;熟悉各种性能分析工具和profiling方法,有一定的性能优化经验 4.有影响力的开源项目中做出过核心贡献,或发表过高水平论文。 5.责任心强,积极主动,有良好的沟通能力和团队合作能力。 岗位亮点: 1.前景好、挑战大:千亿甚至万亿级模型训推,接触超大规模集群与前沿技术; 2.成长快:完善的新人培养和融入机制,团队同学背景好技术牛,在工程架构、机器学习等多个技术方向输出创新实现,得到业界广泛认可
工作职责
研究方向一:端到端生成式广告大模型训练推理系统 信息流广告系统一般采用“召回->粗排->精排->出价->拍卖”的多级漏斗架构,但各模块独立优化导致优化目标不一致,前链路会制约后链路上限,漏斗效率折损大。随着大模型和生成式技术的快速发展,其强大的表征能力和良好的Scaling性质也为广告系统提供了新的可能性。本研究旨在探索如何利用生成式技术重塑整个广告系统,通过一个端到端的生成式广告大模型完成所有决策,打破多级漏斗框架,打开模型决策空间,最大化平台收益。 1.生成式广告训练系统设计:基于前沿大模型(如Transformer、HSTU等),设计生成式推荐模型的分布式训练框架,优化数据/模型的高效并行处理和混合精度训练策略。 2.高性能推理引擎建设:既有大稀疏(Embedding),又有大稠密(LLM)的模型结构下,优化延迟、吞吐量和显存占用,支持千亿/万亿参数模型的实时推理需求。 3.广告链路端到端重塑:超长行为序列与超大候选Item情况下,优化传统的多阶段网络传输架构,需要一体化硬件支撑的召回/排序/机制统一服务。 研究方向二:大模型后训练与推理优化 为了推动大模型在AI电销以及智能IM的规模化应用,致力于打造业界领先的大模型技术,聚焦于模型后训练优化与高效推理部署,共同突破模型压缩、推理加速等核心技术,降低大模型落地成本,提升服务性能。 1.后训练优化:实现并优化基于人类反馈的强化学习(RLHF)算法,包括奖励模型(Reward Model)训练、PPO/DPO/GRPO等策略优化;设计并优化多机多卡并行策略(如DP/PP/TP/EP等),解决千亿/万亿模型训练中的计算、显存和通信瓶颈。 2.推理部署优化:设计高效推理框架,探索模型压缩(量化、剪枝、知识蒸馏)、动态计算优化等技术,实现低延迟、高吞吐的部署方案,并优化硬件资源利用率,降低服务成本。
研究方向一:下一代端到端生成式 广告大模型系统广告系统一般采用“召回->粗排->精排->出价->拍卖”的多级漏斗架构,但各模块独立优化导致优化目标不一致,前链路会制约后链路上限,漏斗效率折损大。近年来,随着大模型和生成式技术的快速发展,其强大的表征能力和良好的Scaling性质也为广告系统提供了新的可能性。本研究旨在探索如何利用生成式技术重塑整个广告系统,通过一个端到端的生成式广告大模型完成所有决策,打破多级漏斗框架,打开模型决策空间,最大化平台收益。 1.生成式广告大模型架构设计:基于前沿大模型(如时空Transformer、MLA、MoE等),设计适配广告场景的生成式决策框架,支持根据“用户行为、实时位置、商户出价”端到端生成最优的广告商家、展示创意、相应计费。 2.多阶段的训练范式设计:借鉴LLM的分阶段训练技术(如PT、SFT、RLHF等),设计“基于海量交互的 pre-training 和 基于业务目标的 post-training ”的分阶段训练范式,提升广告大模型效果。 3.广告大模型的Scaling规律探索:探索广告场景下,生成式大模型“算力->效果”的转化规律,驱动推广搜迭代范式实现由“人工设计迭代”到“算力堆叠迭代”的跃迁。 研究方向二:基于大模型重构广告系统 传统的向量召回和深度学习推荐范式在深度交互、冷启动、长尾商品发现、多场景适配等方面仍存在诸多挑战。 大模型具备强大的内容理解、知识推理和个性化内容生成能力。以大模型为核心,通过将用户历史行为、上下文信息、多模态内容等深度融合,实现用户意图的主动理解、候选内容的生成与多场景下的精准推荐,极大提升广告系统召回、粗排、精排、拍卖等模块的能力上界。 1.领域LLM 构建:基于sota 基座模型,系统性整合美团用商双端数据,通过PT、SFT、RLHF等方式构建适配外卖/到餐领域的垂直领域LLM,快速支持商业广告系统多大模型应用落地; 2.基于强化学习+领域LLM 的通用广告解决方案:基于领域LLM,结合GRPO等强化学习技术,探索广告召回、粗排、精排建模的新范式,探索广告领域建模的scaling law; 3.结合广告业务场景与大模型前沿技术,探索改造广告算法链路的创新方向,实现广告算法链路的大规模升级及核心指标的显著提升。
【课题说明】 信息流广告系统一般采用“召回->粗排->精排->出价->拍卖”的多级漏斗架构,但各模块独立优化导致优化目标不一致,前链路会制约后链路上限,漏斗效率折损大。 近年来,随着大模型和生成式技术的快速发展,其强大的表征能力和良好的Scaling性质也为广告系统提供了新的可能性。本研究旨在探索如何利用生成式技术重塑整个广告系统,通过一个端到端的生成式广告大模型完成所有决策,打破多级漏斗框架,打开模型决策空间,最大化平台收益。 【建议研究方向】 1.生成式广告大模型架构设计:基于前沿大模型(如时空Transformer、MLA、MoE等),设计适配广告场景的生成式决策框架,支持根据“用户行为、实时位置、商户出价”端到端生成最优的广告商家、展示创意、相应计费。 2.多阶段的训练范式设计:借鉴LLM的分阶段训练技术(如PT、SFT、RLHF等),设计“基于海量交互的 pre-training 和 基于业务目标的 post-training ”的分阶段训练范式,提升广告大模型效果。 3.广告大模型的Scaling规律探索:探索广告场景下,生成式大模型“算力->效果”的转化规律,驱动推广搜迭代范式实现由“人工设计迭代”到“算力堆叠迭代”的跃迁。
研究方向一:基于大模型的智能销售助手研究 本课题致力于将大模型技术和智能外呼任务相结合,优化美团智能外呼系统,增强其在复杂对话环境下的意图理解与灵活应对能力。力图实现更自然的语音交互、更精准的营销策略,以及更灵活的应答处理等。 1.转化信号奖励建模:依托业务场景多轮对话的真实转化信号,构建商家画像、对话文本特征信号以及交互环境特征,预估对话的转化率,进而通过强化学习(DPO/GRPO/RLHF)引导模型营销话术生成。 2.销售领域垂类大模型:通过收集多场景销售数据以及美团广告产品知识,通过continue-Pretraining构建垂类通用销售模型基座,支持多业务场景快速支持应用。 3.Multi-Agent交互式外呼系统:通过构建任务规划、流程监督、对话营销等多个agent交互逻辑,在较低响应耗时条件下,实现最佳的电话沟通效果。 研究方向二:基于大模型的智能IM的研究与应用 本课题致力于将大模型技术和商家端的各项客服任务相结合,通过大模型能力赋能美团商家与用户交互过程,降低商家与客户交互的成本,提升商户的成单数量。 1.基于多智能体的商家助手设计:设计基于大模型的多智能体交互方案,让模型在与用户交互过程中,能给有效识别用户意图,完成多轮交互。 2.工具调用与任务分解:设计多工具调用框架,使商家助手能够动态组合调用业务API、业务数据库等工具,完成多种复杂任务。 研究方向三:基于大模型的广告创意生产 本课题借助大模型的音、视、图、文等多模态理解、思考与生成能力,结合用户画像、商户/品特征、热点趋势等信息,探索实现低成本、个性化的商用级创意内容(如图文笔记、长视频)的生成技术。 1.多模态深度思考:设计与实现多模态深度思考方案,优化模型对多源异构信息进行抽取筛选、加工整合、衍生创作的能力,提升创意内容生成的质量与多样性。 2.开放问题的强化学习:针对无标准答案的开放问题(如笔记生成、剧本创作、素材选取等),设计与实现适配的奖励机制与策略,通过强化学习提升模型能力。 3.创意生产Agent:参考人工生产中的不同角色分工合作流程,设计与实现创意生产的多agent协作框架,并通过线上效果反馈机制,闭环提升生产的效率与质量。
【课题说明】 传统销售模式中,销售人员通过电销系统触达商户,对商户进行营销/运营触达,整体链路人工依赖率高。随着大模型技术的快速发展,基于大模型的智能外呼在提升电销覆盖率和转化率方面展现出极大潜力。 本课题致力于将大模型技术和智能外呼任务相结合,优化美团智能外呼系统,增强其在复杂对话环境下的意图理解与灵活应对能力。力图实现更自然的语音交互、更精准的营销策略,以及更灵活的应答处理等。 【建议研究方向】 1.转化信号奖励建模:依托业务场景多轮对话的真实转化信号,构建商家画像、对话文本特征信号以及交互环境特征,预估对话的转化率,进而通过强化学习(DPO/GRPO/RLHF)引导模型营销话术生成。 2.销售领域垂类大模型:通过收集多场景销售数据以及美团广告产品知识,通过continue-Pretraining构建垂类通用销售模型基座,支持多业务场景快速支持应用。 3.Multi-Agent交互式外呼系统:通过构建任务规划、流程监督、对话营销等多个agent交互逻辑,在较低响应耗时条件下,实现最佳的电话沟通效果。