logo of meituan

美团【基座大模型北斗实习】下一代大模型训练范式研究

实习兼职核心本地商业-基础研发平台地点:北京 | 上海状态:招聘

任职要求


1、熟悉NLPLLM、MLsys、Optimization、OR、Control、RL等相关领域,对其中一个或多个方向有深入的研究经历,且有相关实际项目经验;
2、熟悉PythonC++等至少一门编程语言,熟悉LINUX环境…
登录查看完整任职要求
微信扫码,1秒登录

工作职责


简介:探索下一代大模型训练范式,从模型结构、训练策略、数据策略、算力利用率等角度切入,打造具有更强能力和更高潜力的基座模型

1、设计更高效的模型结构,提高给定数据量、计算量、硬件资源、输出序列长度等约束下的模型能力,如长序列能力、记忆能力等。
2、探索更科学和前沿的训练策略,对影响training dynamic的关键变量(如学习率、batchsize、初始化等)形成更科学的认知,探索diffusion LLM,test-time scaling等技术。
3、研究模型结构和数据的耦合关系,优化分阶段训练范式。
4、结合MLsys解决大规模训练中遇到的卡点问题,实现算法和工程联合设计。
包括英文材料
NLP+
大模型+
Python+
C+++
Linux+
PyTorch+
还有更多 •••
相关职位

logo of meituan
实习核心本地商业-基

简介:本课题聚焦于超大规模预训练数据的深度理解、提纯与价值挖掘,建立数据与模型能力之间的因果联系,打造下一代万亿基座模型的高效数据引擎,致力于提升基座模型的智能上限。研究内容包括但不限于: 1、研发基于模型的高效数据质量评估、去重与清洗算法,提高数据质量、多样性和覆盖度。 2、深入探究数据分布与模型能力的因果关系,建立“训练数据-模型效果”归因机制,探索并突破基座模型的能力上限。 3、探索自动化数据筛选机制、动态配比(Data Mixture)与多阶段训练范式,探索不同类型数据对模型能力的Scaling Law。 4、构建科学、多维度的基座模型能力和潜力评估,驱动预训练数据策略的优化,形成高效的数据迭代闭环。

更新于 2026-04-03北京|上海
logo of meituan
实习核心本地商业-基

探索下一代大模型预训练范式,从模型结构、训练策略、数据策略、算力利用率等角度切入,打造具有更强能力和更高潜力的基座模型。 1)设计更高效的模型结构,提高给定数据量、计算量、硬件型号、输出序列长度等约束下的模型能力,如长序列能力、记忆能力等。 2)探索更科学的训练策略,对影响training dynamic的关键变量(如学习率、batchsize、初始化等)形成更科学的认知,探索更适合大模型的optimizer等。 3)研究模型结构和数据的耦合关系,优化分阶段训练范式。 4)结合MLsys解决大规模训练中遇到的卡点问题,实现算法和工程联合设计。

更新于 2025-05-23北京|香港|上海
logo of meituan
实习核心本地商业-基

简介:围绕下一代智能体系统的三类核心能力展开布局——持续学习能力、原生规划与建模能力、跨时程记忆能力。 1、探索 Agent 的学习范式:online learning/自博弈/自进化:围绕任务自动生成—轨迹采集—反馈建模—经验提炼—策略更新的闭环展开探索,重点尝试失败驱动的课程生成、自我反思与回溯、多智能体自博弈、基于验证器或多数投票的弱监督反馈,以及将经验写入外部记忆或压缩回模型参数的近在线更新机制。核心目标是让 Agent 在开放环境中逐步具备持续学习、持续适应和持续提升的能力。 2、Agentic-native model 范式:扩散模型/世界模型/生成式规划:探索三类互补路径:其一,学习可供 Agent 调用的世界模型,用于预测状态转移、环境反馈与长期结果;其二,用扩散式或潜变量式生成机制,对动作序列、子目标或未来轨迹进行并行采样与迭代修正,提升长程规划能力;其三,把生成式规划与搜索/验证结合,通过 imagined rollouts、候选轨迹打分、反事实比较和分层计划,把先想后做的能力落实到系统。 3、超长上下文与记忆:围绕记什么、记成什么形式、何时写、如何压缩、何时召回、何时遗忘这几个核心问题开展研究,重点探索分层记忆结构、事实/经验/工作记忆协同、主动写入与更新、基于任务反馈的记忆读写策略学习,以及长上下文与显式记忆协同的系统设计,以支撑长时程规划、多轮任务连续性与个体化经验积累.

更新于 2026-04-03北京|上海
logo of meituan
实习核心本地商业-基

Post-training是联结大模型通用知识和人类偏好的桥梁,在规范知识输出、提升推理能力、对齐人类偏好等方面起到了关键作用。本课题专注于大模型Post-training相关前沿算法研究,包括但不限于: 1)训练机制设计和优化:包括数据建设、指令微调,人类偏好和安全对齐,奖励模型、强化学习及效果评估等方向,优化模型文本创作、逻辑推理、指令遵循、代码生成、工具调用等能力,提升模型可控性和安全性。 2)Post-training前沿研究:面向下一代推理基座的架构设计,test-time compute训练范式,思维链学习,多智能体和自博弈强化学习,提升模型的复杂任务处理能力和智能水平。

更新于 2025-05-23北京|上海