logo of meituan

美团【基座大模型北斗实习】大语言模型后训练前沿算法研究

实习兼职核心本地商业-基础研发平台地点:北京 | 上海状态:招聘

任职要求


1、硕士及以上学历,计算机、人工智能、数学等相关专业,博士优先;
2、熟悉NLPLLM、RL等相关领域,对其中一个或多个方向有深入的研究经历,且有相关实践经验;
3、有较强的分析和解决问题…
登录查看完整任职要求
微信扫码,1秒登录

工作职责


简介:大语言模型后训练前沿算法研究包括但不限于:
1、对齐算法研发:包括 SFT 数据建设,指令微调等。构建高质量的训练数据,包括自动化数据清洗、合成数据生产、高质量 Prompt Engineering 等。优化模型复杂指令遵循、逻辑推理、创作写作、代码生成以及工具调用等能力,提升模型综合能力和用户体验。
2、人类偏好对齐:包括奖励模型、人类偏好对齐等前沿强化算法的探索和实践,提升模型在包括创意写作、对话风格以及模型内生安全对齐等人类偏好上的可控性,生成更符合人类价值观、逻辑习惯和审美偏好的内容。
3、跟踪并实现最新的后训练技术(如数据领域自动化配比、后训练机制设计和优化等)。
包括英文材料
学历+
NLP+
大模型+
NeurIPS+
还有更多 •••
相关职位

logo of meituan
实习核心本地商业-基

简介:围绕下一代智能体系统的三类核心能力展开布局——持续学习能力、原生规划与建模能力、跨时程记忆能力。 1、探索 Agent 的学习范式:online learning/自博弈/自进化:围绕任务自动生成—轨迹采集—反馈建模—经验提炼—策略更新的闭环展开探索,重点尝试失败驱动的课程生成、自我反思与回溯、多智能体自博弈、基于验证器或多数投票的弱监督反馈,以及将经验写入外部记忆或压缩回模型参数的近在线更新机制。核心目标是让 Agent 在开放环境中逐步具备持续学习、持续适应和持续提升的能力。 2、Agentic-native model 范式:扩散模型/世界模型/生成式规划:探索三类互补路径:其一,学习可供 Agent 调用的世界模型,用于预测状态转移、环境反馈与长期结果;其二,用扩散式或潜变量式生成机制,对动作序列、子目标或未来轨迹进行并行采样与迭代修正,提升长程规划能力;其三,把生成式规划与搜索/验证结合,通过 imagined rollouts、候选轨迹打分、反事实比较和分层计划,把先想后做的能力落实到系统。 3、超长上下文与记忆:围绕记什么、记成什么形式、何时写、如何压缩、何时召回、何时遗忘这几个核心问题开展研究,重点探索分层记忆结构、事实/经验/工作记忆协同、主动写入与更新、基于任务反馈的记忆读写策略学习,以及长上下文与显式记忆协同的系统设计,以支撑长时程规划、多轮任务连续性与个体化经验积累.

更新于 2026-04-03北京|上海
logo of meituan
实习核心本地商业-基

探索下一代大模型预训练范式,从模型结构、训练策略、数据策略、算力利用率等角度切入,打造具有更强能力和更高潜力的基座模型。 1)设计更高效的模型结构,提高给定数据量、计算量、硬件型号、输出序列长度等约束下的模型能力,如长序列能力、记忆能力等。 2)探索更科学的训练策略,对影响training dynamic的关键变量(如学习率、batchsize、初始化等)形成更科学的认知,探索更适合大模型的optimizer等。 3)研究模型结构和数据的耦合关系,优化分阶段训练范式。 4)结合MLsys解决大规模训练中遇到的卡点问题,实现算法和工程联合设计。

更新于 2025-05-23北京|香港|上海
logo of meituan
实习核心本地商业-基

简介:Reasoning(推理)是大模型理解和处理信息的核心能力,是通用智能水平逼近的重要观测维度。本课题聚焦于探究生成式模型的高级推理发生机制,提升大模型在复杂任务上的推理表现。 研究内容包括但不限于: 1、复杂任务推理应用效果优化,诸如逻辑推理、数学推理、代码推理、跨模态推理、多模型决策等。 2、RL scaling,通过大规模强化学习持续提升模型推理能力。 3、Test time scaling,通过增加inference时消耗的算力持续提升模型推理能力。

更新于 2026-04-03北京|上海
logo of meituan
实习核心本地商业-基

简介:探索下一代大模型训练范式,从模型结构、训练策略、数据策略、算力利用率等角度切入,打造具有更强能力和更高潜力的基座模型 1、设计更高效的模型结构,提高给定数据量、计算量、硬件资源、输出序列长度等约束下的模型能力,如长序列能力、记忆能力等。 2、探索更科学和前沿的训练策略,对影响training dynamic的关键变量(如学习率、batchsize、初始化等)形成更科学的认知,探索diffusion LLM,test-time scaling等技术。 3、研究模型结构和数据的耦合关系,优化分阶段训练范式。 4、结合MLsys解决大规模训练中遇到的卡点问题,实现算法和工程联合设计。

更新于 2026-04-03北京|上海