美团【北斗】广告大模型应用算法工程师-OneModel广告算法研究员
校招全职核心本地商业-业务研发平台地点:北京 | 上海 | 成都状态:招聘
任职要求
【任职资格】 1.在搜广推、大语言模型、序列建模、强化学习等一个或多个方向具有系统性研究积累,并有工业级落地经验。 2.在 KDD、SIGIR、WWW、NeurIPS、ICML、ICLR、ACL、EMNLP 等国际顶级会议有论文发表,或主导过具有行业影响力的工业级算法系统研发。 3.熟悉 Python 或 C++,具备大规模分布式训练与在线推理系统的独立研发能力;有千亿参数级模型训练经验者优先。 4.具备将前沿研究成果推进到线上生产环境的…
登录查看完整任职要求
微信扫码,1秒登录
工作职责
【愿景】 广告系统目前正站在从多级漏斗到端到端大模型的范式跃迁起点,传统的多级漏斗架构(召回→粗排→精排→混排)因各阶段目标割裂、信息截断,存在系统性效率损耗。随着 LLM 表征能力与 Scaling 特性日趋成熟,以端到端生成式模型统一广告全链路决策已成为行业的核心探索方向。本岗位面向美团广告 OneModel 方向,核心任务是研究并落地端到端广告大模型,以统一大模型完成从用户行为信号到最终展示序列的全链路决策,最大化用户体验和平台收益。 【你将参与】 1.端到端广告大模型架构设计。基于 Causal Transformer、MLA、MoE 等架构技术,设计突破多级漏斗限制的端到端广告决策框架,支持融合用户行为序列与实时上下文、直接输出具备位置价值感知的展示序列;探索 Semantic ID、动态候选索引等广告生成式检索关键技术。 2.广告场景多阶段训练范。结合广告数据稀疏特性,设计"海量用户交互 pre-training + 多目标商业价值 post-training"的分阶段训练体系;研究适配广告约束的 RLHF/价值对齐方法,在用户体验与平台收益之间建立可持续的优化路径。 3.广告场景 Scaling Law 研究。探索广告场景下"参数量/数据规模/训练算力 → 业务效果"的转化规律;研究 inference-time scaling、process reward model 等推理阶段增效方向,推动团队迭代范式从人工特征设计向算力驱动跃迁。
包括英文材料
强化学习+
https://cloud.google.com/discover/what-is-reinforcement-learning?hl=en
Reinforcement learning (RL) is a type of machine learning where an "agent" learns optimal behavior through interaction with its environment.
https://huggingface.co/learn/deep-rl-course/unit0/introduction
This course will teach you about Deep Reinforcement Learning from beginner to expert. It’s completely free and open-source!
https://www.kaggle.com/learn/intro-to-game-ai-and-reinforcement-learning
Build your own video game bots, using classic and cutting-edge algorithms.
SIGKDD+
https://www.kdd.org/
SIGIR+
https://sigir.org/
NeurIPS+
https://neurips.cc/
ICML+
https://icml.cc/
还有更多 •••