logo of meituan

美团【基座大模型北斗实习】大模型预训练数据科学与模型潜力前沿研究

实习兼职核心本地商业-基础研发平台地点:北京 | 上海状态:招聘

任职要求


1、硕士及以上学历,计算机、人工智能、数学、NLP等相关专业,博士优先;
2、在大模型领域有研究基础,或参与过有影响力的开源项目,在ICLR/Neur…
登录查看完整任职要求
微信扫码,1秒登录

工作职责


简介:本课题聚焦于超大规模预训练数据的深度理解、提纯与价值挖掘,建立数据与模型能力之间的因果联系,打造下一代万亿基座模型的高效数据引擎,致力于提升基座模型的智能上限。研究内容包括但不限于:
1、研发基于模型的高效数据质量评估、去重与清洗算法,提高数据质量、多样性和覆盖度。
2、深入探究数据分布与模型能力的因果关系,建立“训练数据-模型效果”归因机制,探索并突破基座模型的能力上限。
3、探索自动化数据筛选机制、动态配比(Data Mixture)与多阶段训练范式,探索不同类型数据对模型能力的Scaling Law。
4、构建科学、多维度的基座模型能力和潜力评估,驱动预训练数据策略的优化,形成高效的数据迭代闭环。
包括英文材料
学历+
NLP+
大模型+
还有更多 •••
相关职位

logo of meituan
实习核心本地商业-基

本课题研究方向包括但不限于: 1)构建端到端的网页文本内容提取系统,针对网络数据的复杂性,从系统效率和模型效果角度持续优化内容提取算法,迭代生产标准。 2)设计预训练数据的全局质量优化和治理方案,优化全局采样策略、隐私保护和安全合规,提升基座模型训练效率和最终效果。 3)建设多模态交错数据处理链路,通过数据分析和配比实验等手段优化多模态数据质量和多样性,支撑多模态大模型数据需求。 4)推动数据驱动的模型性能突破。 5)负责千亿级网页的大规模处理和万亿级token数据生产,通过分布式计算、模型量化及显存优化的方式提升数据处理和生产效率。

更新于 2025-05-23北京|上海
logo of meituan
实习核心本地商业-基

探索下一代大模型预训练范式,从模型结构、训练策略、数据策略、算力利用率等角度切入,打造具有更强能力和更高潜力的基座模型。 1)设计更高效的模型结构,提高给定数据量、计算量、硬件型号、输出序列长度等约束下的模型能力,如长序列能力、记忆能力等。 2)探索更科学的训练策略,对影响training dynamic的关键变量(如学习率、batchsize、初始化等)形成更科学的认知,探索更适合大模型的optimizer等。 3)研究模型结构和数据的耦合关系,优化分阶段训练范式。 4)结合MLsys解决大规模训练中遇到的卡点问题,实现算法和工程联合设计。

更新于 2025-05-23北京|香港|上海
logo of meituan
实习核心本地商业-基

简介:原生多模态旨在以统一的范式处理文本、视觉、语音等各个模态的数据,从而更加自然地进行模态融合,以及通过scaling友好的训练范式,解锁模型智能的新维度。 研究课题包括但不限于: 1、探索early fusion阶段,引入图文交错/audio等多模态序列数据自监督预训练带来的scaling价值。 2、原生全模态预训练的training dynamic探究,模态之间的关系建模。 3、通过SFT / RL等手段,借助多模态token解锁模型新的智能维度,提升模型解决Robot/Gaming等物理世界问题的能力。

更新于 2026-04-03北京|上海
logo of meituan
实习核心本地商业-基

本课题探索大模型垂直领域知识高效增强方法,包括数据策略、训练策略以及scaling law友好的训练方法,打造适配实际应用所需的基座能力。研究内容包括但不限于: 1) 大模型基座知识能力增强,通过大规模continue pretrain打造生活服务领域基座,赋能美团各类大模型应用场景。 2)探索预训练增强阶段的大规模高质量数据自动合成、Scaling Law、长链条复杂推理反思能力增强。 3)建设生活服务chat模型与智能体,通过强化学习等方式增强模型推理反思、复杂指令遵循、高情商交互等能力,支撑大模型在生活服务领域的应用。

更新于 2025-05-23北京|上海