美团【基座大模型北斗实习】大模型预训练数据科学与模型潜力前沿研究

实习兼职核心本地商业-基础研发平台2026-04-03地点：北京 | 上海状态：招聘

扫码手机上打开

任职要求

1、硕士及以上学历，计算机、人工智能、数学、NLP等相关专业，博士优先；
2、在大模型领域有研究基础，或参与过有影响力的开源项目，在ICLR/Neur…

登录查看完整任职要求

微信扫码，1秒登录

工作职责

简介：本课题聚焦于超大规模预训练数据的深度理解、提纯与价值挖掘，建立数据与模型能力之间的因果联系，打造下一代万亿基座模型的高效数据引擎，致力于提升基座模型的智能上限。研究内容包括但不限于：
1、研发基于模型的高效数据质量评估、去重与清洗算法，提高数据质量、多样性和覆盖度。
2、深入探究数据分布与模型能力的因果关系，建立“训练数据-模型效果”归因机制，探索并突破基座模型的能力上限。
3、探索自动化数据筛选机制、动态配比（Data Mixture）与多阶段训练范式，探索不同类型数据对模型能力的Scaling Law。
4、构建科学、多维度的基座模型能力和潜力评估，驱动预训练数据策略的优化，形成高效的数据迭代闭环。

📮 投递简历 ✨AI模拟面试

难度：

包括英文材料

学历+

NLP+

大模型+

还有更多 •••

登录查看完整学习资料

相关职位

【大模型北斗实习】大模型预训练数据构建理论与算法研究

实习核心本地商业-基

本课题研究方向包括但不限于： 1）构建端到端的网页文本内容提取系统，针对网络数据的复杂性，从系统效率和模型效果角度持续优化内容提取算法，迭代生产标准。 2）设计预训练数据的全局质量优化和治理方案，优化全局采样策略、隐私保护和安全合规，提升基座模型训练效率和最终效果。 3）建设多模态交错数据处理链路，通过数据分析和配比实验等手段优化多模态数据质量和多样性，支撑多模态大模型数据需求。 4）推动数据驱动的模型性能突破。 5）负责千亿级网页的大规模处理和万亿级token数据生产，通过分布式计算、模型量化及显存优化的方式提升数据处理和生产效率。

更新于 2025-05-23北京|上海

【大模型北斗实习】大语言模型预训练结构和策略

实习核心本地商业-基

探索下一代大模型预训练范式，从模型结构、训练策略、数据策略、算力利用率等角度切入，打造具有更强能力和更高潜力的基座模型。 1）设计更高效的模型结构，提高给定数据量、计算量、硬件型号、输出序列长度等约束下的模型能力，如长序列能力、记忆能力等。 2）探索更科学的训练策略，对影响training dynamic的关键变量（如学习率、batchsize、初始化等）形成更科学的认知，探索更适合大模型的optimizer等。 3）研究模型结构和数据的耦合关系，优化分阶段训练范式。 4）结合MLsys解决大规模训练中遇到的卡点问题，实现算法和工程联合设计。

更新于 2025-05-23北京|香港|上海

【基座大模型北斗实习】原生多模态大模型研究

实习核心本地商业-基

简介：原生多模态旨在以统一的范式处理文本、视觉、语音等各个模态的数据，从而更加自然地进行模态融合，以及通过scaling友好的训练范式，解锁模型智能的新维度。研究课题包括但不限于： 1、探索early fusion阶段，引入图文交错/audio等多模态序列数据自监督预训练带来的scaling价值。 2、原生全模态预训练的training dynamic探究，模态之间的关系建模。 3、通过SFT / RL等手段，借助多模态token解锁模型新的智能维度，提升模型解决Robot/Gaming等物理世界问题的能力。

更新于 2026-04-03北京|上海

【大模型北斗实习】生活服务领域基座增强技术研究

实习核心本地商业-基

本课题探索大模型垂直领域知识高效增强方法，包括数据策略、训练策略以及scaling law友好的训练方法，打造适配实际应用所需的基座能力。研究内容包括但不限于： 1）大模型基座知识能力增强，通过大规模continue pretrain打造生活服务领域基座，赋能美团各类大模型应用场景。 2）探索预训练增强阶段的大规模高质量数据自动合成、Scaling Law、长链条复杂推理反思能力增强。 3）建设生活服务chat模型与智能体，通过强化学习等方式增强模型推理反思、复杂指令遵循、高情商交互等能力，支撑大模型在生活服务领域的应用。

更新于 2025-05-23北京|上海