logo of meituan

美团【基座大模型北斗实习】大模型预训练数据科学与模型潜力前沿研究

实习兼职核心本地商业-基础研发平台地点:北京 | 上海状态:招聘

任职要求


1、硕士及以上学历,计算机、人工智能、数学、NLP等相关专业,博士优先;
2、在大模型领域有研究基础,或参与过有影响力的开源项目,在ICLR/Neur…
登录查看完整任职要求
微信扫码,1秒登录

工作职责


简介:本课题聚焦于超大规模预训练数据的深度理解、提纯与价值挖掘,建立数据与模型能力之间的因果联系,打造下一代万亿基座模型的高效数据引擎,致力于提升基座模型的智能上限。研究内容包括但不限于:
1、研发基于模型的高效数据质量评估、去重与清洗算法,提高数据质量、多样性和覆盖度。
2、深入探究数据分布与模型能力的因果关系,建立“训练数据-模型效果”归因机制,探索并突破基座模型的能力上限。
3、探索自动化数据筛选机制、动态配比(Data Mixture)与多阶段训练范式,探索不同类型数据对模型能力的Scaling Law。
4、构建科学、多维度的基座模型能力和潜力评估,驱动预训练数据策略的优化,形成高效的数据迭代闭环。
包括英文材料
学历+
NLP+
大模型+
还有更多 •••
相关职位

logo of meituan
实习核心本地商业-基

本课题研究方向包括但不限于: 1)构建端到端的网页文本内容提取系统,针对网络数据的复杂性,从系统效率和模型效果角度持续优化内容提取算法,迭代生产标准。 2)设计预训练数据的全局质量优化和治理方案,优化全局采样策略、隐私保护和安全合规,提升基座模型训练效率和最终效果。 3)建设多模态交错数据处理链路,通过数据分析和配比实验等手段优化多模态数据质量和多样性,支撑多模态大模型数据需求。 4)推动数据驱动的模型性能突破。 5)负责千亿级网页的大规模处理和万亿级token数据生产,通过分布式计算、模型量化及显存优化的方式提升数据处理和生产效率。

更新于 2025-05-23北京|上海
logo of meituan
实习核心本地商业-基

探索下一代大模型预训练范式,从模型结构、训练策略、数据策略、算力利用率等角度切入,打造具有更强能力和更高潜力的基座模型。 1)设计更高效的模型结构,提高给定数据量、计算量、硬件型号、输出序列长度等约束下的模型能力,如长序列能力、记忆能力等。 2)探索更科学的训练策略,对影响training dynamic的关键变量(如学习率、batchsize、初始化等)形成更科学的认知,探索更适合大模型的optimizer等。 3)研究模型结构和数据的耦合关系,优化分阶段训练范式。 4)结合MLsys解决大规模训练中遇到的卡点问题,实现算法和工程联合设计。

更新于 2025-05-23北京|香港|上海
logo of meituan
实习核心本地商业-基

随着大语言模型从通用问答走向复杂任务执行,Agent能力正成为模型演进的关键方向。传统大模型虽具备海量知识,但面对复杂任务的自主规划、工具调用及长期记忆管理时,往往难以应对。本课题旨在探索Midtrain这一关键阶段,推动通用基座模型向原生Agentic Foundation Model演进,为构建下一代自主智能体提供坚实的底座支持。 1. 大规模高质量数据体系与合成数据建设 数据体系构建:建设 Trillion 级别的大规模跨模态数据处理与合成链路。负责从训练数据获取到配比建模的全流程优化 合成方法演进:探索大规模合成数据 (Synthetic Data) 与自蒸馏 (Self-distillation) 技术,制定合成数据应用策略 理论探索:研究Data Scaling Laws,解决数据扩展中的模型坍塌(Model Collapse)与多样性瓶颈问题,通过课程学习(Curriculum Learning)等训练策略,显著优化Token/FLOPs转化效率 2. 长上下文 (Long Context) 与高效架构演进 长窗口突破: 持续Scaling Up模型的Context Length,优化超长上下文机制,重点提升LongCat基座模型在长上下文上的表现 架构优化: 探索并验证MoE(混合专家)、稀疏注意力(Sparse Attention)、线性注意力等模型结构;结合剪枝与稀疏化技术,协同优化训练与推理效率,提升超长上下文场景下的效率 上下文管理: 探索逐轮次和跨多轮次的上下文管理方法,并建立对应评测体系,从而减少冗余信息堆叠,实现高效思考和性能提升 3. 多模态能力融合与 Agent 赋能 模态融合:探索多模态预训练新范式,突破模态融合瓶颈。利用多模态扩展定律指导数据与训练方案,提升模型在多模态交互场景下的原生能力 复杂场景落地:面向 Agent、具身智能等前沿场景,提升模型的多模态指令遵循与复杂任务规划能力 4. 下一代训练范式与前沿技术探索 自进化机制:协同上下游团队,探索模型自进化(Self-evolution)机制,研究RL在Mid-training阶段的应用 能力扩展:研究推理阶段扩展(Test-time Scaling)及全模态链式思维(Omni-modal CoT),推动模型从单纯的“知识记忆”向“深度推理与问题解决”演进

更新于 2026-04-07北京|上海
logo of meituan
实习核心本地商业-基

本课题探索大模型垂直领域知识高效增强方法,包括数据策略、训练策略以及scaling law友好的训练方法,打造适配实际应用所需的基座能力。研究内容包括但不限于: 1) 大模型基座知识能力增强,通过大规模continue pretrain打造生活服务领域基座,赋能美团各类大模型应用场景。 2)探索预训练增强阶段的大规模高质量数据自动合成、Scaling Law、长链条复杂推理反思能力增强。 3)建设生活服务chat模型与智能体,通过强化学习等方式增强模型推理反思、复杂指令遵循、高情商交互等能力,支撑大模型在生活服务领域的应用。

更新于 2025-05-23北京|上海