logo of meituan

美团【大模型北斗实习】Post-training 前沿算法研究

实习兼职核心本地商业-基础研发平台地点:北京 | 上海状态:招聘

任职要求


1)熟悉NLPLLM、RL等领域,在一个或多个相关领域有深入研究经历并有实际论文产出或项目经验。
2)熟悉大模型算法研究所需的相关编程语言、工具、算法等,如PythonC++等编程语言、Megatron等训练框架、DPO、PPO等相关算法。
3)具备独立开展科学研究和实验的能力,对大模型相关技术有浓厚兴趣,具备强烈的进取心、求知欲,热衷于追求行业顶尖的技术创新。
加分项:
1)有大模型一线研究和实践经验,在大模型领域发表过高影响力论文或主导/参与过知名开源项目者优先。
2)发表过高影响力论文优先(如NeurIPS,ICLR,ICML,ACL,EMNLP等)。

工作职责


Post-training是联结大模型通用知识和人类偏好的桥梁,在规范知识输出、提升推理能力、对齐人类偏好等方面起到了关键作用。本课题专注于大模型Post-training相关前沿算法研究,包括但不限于:
1)训练机制设计和优化:包括数据建设、指令微调,人类偏好和安全对齐,奖励模型、强化学习及效果评估等方向,优化模型文本创作、逻辑推理、指令遵循、代码生成、工具调用等能力,提升模型可控性和安全性。
2)Post-training前沿研究:面向下一代推理基座的架构设计,test-time compute训练范式,思维链学习,多智能体和自博弈强化学习,提升模型的复杂任务处理能力和智能水平。
包括英文材料
NLP+
大模型+
算法+
Python+
C+++
Megatron+
NeurIPS+
ICML+
相关职位

logo of meituan
实习核心本地商业-基

Post-training 是提升大模型专项能力的核心技术方向之一,包括不限于复杂推理(Reasoning)、价值观对齐(Alignment)、业务Agent应用等研究方向。 本课题研究方向包括但不限于: 1)实现高效灵活的多模型强化学习训练架构。 2)通过合理灵活动态配置资源,提升PPO及各变种算法运行效率。 3)研究低精度在 Post-training 中的应用方式。 4)研究不同的算法+数据对效果的影响。 5)在复杂框架下,研究如何高效的追踪记录训练过程,提升算法探索效率。

更新于 2025-05-23
logo of meituan
实习核心本地商业-基

语音基座大模型是下一代语音算法的基础,也是多模态大模型研究的重要组成部分。本课题研究方向包括不限于: 1)预训练方法研究:设计预训练任务,使训练可大规模扩展,且能够学习到丰富的知识,使得模型同时具备强大的理解和生成能力,进一步实现能力的涌现。 2)tokenizer 优化:探索同时适用于理解和生成任务、兼顾学习效率和效果的tokenizer。 3)泛音频理解:对语音理解之外,探索更广泛的音频(如音乐、环境声)理解能力,以及基于 reasoning 的理解能力。 4) token2wav:与基座大模型配合,实现高效、高质量的语音/音频生成。 5) post-training:探索基于 SFT 和 RL 的后训练策略,激活基座模型的理解和生成能力,实现通用的音频能力,并具备强表现力、多风格、多语种、多音色的能力。

更新于 2025-05-23
logo of meituan
实习核心本地商业-业

【课题说明】 信息流广告系统一般采用“召回->粗排->精排->出价->拍卖”的多级漏斗架构,但各模块独立优化导致优化目标不一致,前链路会制约后链路上限,漏斗效率折损大。 近年来,随着大模型和生成式技术的快速发展,其强大的表征能力和良好的Scaling性质也为广告系统提供了新的可能性。本研究旨在探索如何利用生成式技术重塑整个广告系统,通过一个端到端的生成式广告大模型完成所有决策,打破多级漏斗框架,打开模型决策空间,最大化平台收益。 【建议研究方向】 1.生成式广告大模型架构设计:基于前沿大模型(如时空Transformer、MLA、MoE等),设计适配广告场景的生成式决策框架,支持根据“用户行为、实时位置、商户出价”端到端生成最优的广告商家、展示创意、相应计费。 2.多阶段的训练范式设计:借鉴LLM的分阶段训练技术(如PT、SFT、RLHF等),设计“基于海量交互的 pre-training 和 基于业务目标的 post-training ”的分阶段训练范式,提升广告大模型效果。 3.广告大模型的Scaling规律探索:探索广告场景下,生成式大模型“算力->效果”的转化规律,驱动推广搜迭代范式实现由“人工设计迭代”到“算力堆叠迭代”的跃迁。

更新于 2025-05-27
logo of meituan
实习核心本地商业-业

【课题说明】 大模型研发正从“人类数据时代”跨入“经验时代”,评估已然是大模型研发的重点和难点。具体而言,评估驱动的行业大模型研发下半场范式主要包括两方面内容:①行业核心问题定义和评估归因;②Post-Training多阶段协同的效果提升。本课题基于美团的本地生活业务,精选销售、履约、医药和客服四个代表性行业,旨在探索评估驱动的行业大模型研发的下半场范式。 【建议研究方向】 1.行业大模型通用评估方案探索。 2.行业模型reward设计与探索。 3.面向行业推理能力建设的通用自动化样本构建方法和评估归因方法。 4.面向行业推理能力增强的通用强化训练方案。 5.销售、履约、医药和客服行业大模型训练。

更新于 2025-05-27