美团【北斗】基座大模型算法研究员（预训练/原生多模态/智能体系统）

校招全职核心本地商业-基础研发平台2025-05-23地点：北京 | 上海状态：招聘

扫码手机上打开

任职要求

预训练
1.熟悉NLP、LLM、MLsys、Optimization、Operations research、Control、RL、应用数学等领域，对其中一个或多个方向有深入的研究经历，且有相关实际项目经验；
2.熟悉Python、C++等至少一门编程语言，熟悉Linux环境；
3.熟悉Pytorch、Megatron、DeepSpeed 等开源训练框架；
4.对大模型原理和技术探索有热情和信心，敢于挑战不确定性强的研究问题。
加分项：
1.发表过相关方向高水平论文（如NeurIPS, ICLR, ICML等）；
2.有实际的大模型预训练经验；
3.有影响力的开源项目中做出过核心贡献。

原生多模态
1.多模态大模型、强化学习或具身智能等方向有深入的理解以及扎实的研究/项目经历；
2.熟悉主流的多模态模型、视频理解模型或具身智能框架、RL算法。对两者交叉领域有深入思考或实践者优先；
3.具备强烈的好奇心、出色的创新思维、卓越的问题解决能力以及引领技术突破的雄心

智能体
1.对RL、Agentic Coding、DeepResearch其中一个或多个方向…

登录查看完整任职要求

微信扫码，1秒登录

工作职责

预训练
探索下一代大模型预训练范式，从模型结构、训练策略、数据策略、算力利用率等角度切入，打造具有更强能力和更高潜力的基座模型。
1.设计更高效的模型结构，提高给定数据量、计算量、参数量、序列长度等约束下的模型能力，如长序列能力、记忆能力、推理能力等；
2.探索更科学的训练策略，对影响training dynamic的关键变量（如学习率、batchsize、初始化等）形成更科学的认知，探索更适合大模型的optimizer等；
3.研究模型结构和数据的耦合关系；探索预训练与上下游环节的联合优化；改进分阶段训练范式；
4.结合MLsys解决大规模训练和推理中遇到的卡点问题，实现算法和工程联合设计。

原生多模态
1.负责面向真实世界数据（尤其是大规模视频序列、图文交错数据等）的原生多模态大模型的架构设计与预训练技术探索。攻坚多模态信息（视觉、语言、音频、触觉等）的深度融合、统一表征与跨模态生成。借助更大规模自监督学习范式，驱动模型学习多模态序列分布，致力于让模型从海量数据中学习世界运行的规律、物理交互知识与通用技能；
2.设计并优化适用于原生多模态架构的表征构建与学习方案，以增强模型对多模态Token的深层理解、采样与复杂推理能力。结合SFT/RL等后训练探索，激发模型采样多模token，解决物理世界问题能力；
3.负责将原生多模态大模型学到的丰富先验知识高效迁移并赋能具身智能体。主导或参与强化学习（RL）、模仿学习（IL）、规划与控制算法的设计与优化，显著提升智能体在模拟及真实机器人上的学习效率、任务成功率与自主决策能力；
4.负责设计并与工程团队紧密协作搭建高逼真度、可扩展的具身智能模拟环境，产出多样化、高质量的合成交互数据，为强化学习算法的训练、测试以及Sim-to-Real研究提供坚实的数据与环境基础。

智能体系统
1.研发端到端训练、能够自主处理问题、具备完整工具使用能力的智能体（Agent）系统，在Agentic Coding、DeepResearch等各类端到端任务上取得突破。
2.探索能够自主与环境交互，自适应学习并持续提升的智能体（Agent）系统，提升大模型解决现实问题的能力。

📮 投递简历 ✨AI模拟面试

难度：

包括英文材料

NLP+

大模型+

Python+

C+++

Linux+

PyTorch+

Megatron+

DeepSpeed+

还有更多 •••

登录查看完整学习资料

相关职位

【北斗】基座大模型算法研究员（数据与训练/后训练）

校招核心本地商业-基

数据与训练方向： 1.大模型数据体系建设：构建多语言和多模态的数据处理流程和实验链路，优化数据的筛选与配比策略，探索动态数据调整、多阶段训练和课程学习等方法提升数据质量和多样性，优化大模型的训练效果。 2.合成数据探索：探索大规模合成数据方法，应用于复杂任务、推理、代码和多模态等场景。制定合成数据在预训练、强化学习等不同训练阶段的应用策略，并深入研究数据扩展规模定律、数据多样性和模型坍塌等基础问题，推动数据驱动的性能突破。 3.多模态学习与推理：探索多模态预训练的新范式，突破模态融合瓶颈。具体包括实现多模态能力的早期融合、理解与生成的统一建模，研究多模态扩展定律以指导数据与训练方案，扩展超长上下文机制以支持全模态场景等。同时，面向复杂的多模态推理与交互场景，探索多模态强化学习、多模态奖励模型、推理阶段扩展（test-time scaling）以及全模态链式思维（CoT）等方法，提升模型处理复杂任务和全模态交互的能力。 4.高效模型架构设计：设计高效的大模型架构以提升训练和推理效率。探索 MoE（混合专家）、稀疏注意力、线性注意力等高效模型结构，以及模型编辑与合并等技术，研发能够显著提升推理速度和资源利用率的新型模型架构。 5.推理效率与性能优化：推动算法与系统的协同优化，实现模型性能与效率的最大化平衡。基于对硬件计算潜力的深度挖掘，开发高效的模型推理方案和算法，包括模型压缩、剪枝、量化、稀疏化等，降低模型应用部署成本。后训练方向： 1.后训练数据与流程建设，从指令数据生产、合成、进化、配比等方面提升数据质量，优化指令微调、强化学习、奖励模型等训练pipeline，提升模型综合能力； 2.后训练关键能力建设，包括但不限于优化模型创意生成、多语言、逻辑推理、复杂指令遵循、代码生成、工具调用等能力，提升模型可控性和安全性，拓展模型能力边界； 3.面向准确性、多模信息、最优路径等方向，探索奖励模型的新范式，构建统一模型学习环境，实现模型的价值对齐和能力对齐； 4.面向推理规划能力、多智能体系统、模型自进化等方向，探索下一代强化学习算法，持续提升大模型的智能水平和在真实复杂场景效果； 5.前沿探索：动态推理计算优化（Test-time Compute Optimization）、多智能体协同进化架构、大规模强化学习系统优化等。

更新于 2025-05-23北京|上海

【北斗】基座大模型算法研究员（大模型下一代技术研究）

校招核心本地商业-基

1.面向高效训练和推理的模型架构设计，包括但不限于MoE架构和稀疏注意力机制，模型编辑和合并，模型压缩和推理加速方法等。 2.面向复杂的多模态推理交互场景，研究突破多模态推理强化、多模态奖励模型、test time scaling和全模态COT等，提升模型处理复杂多模态任务的能力和全模态交互水平。 3.探索多模态预训练新范式，包括多模态能力早期融合（Early-Fusion）、理解和生成的统一建模、研究多模态扩展定律（Scaling Law）指导数据和训练方案、扩展超长上下文机制支持全模态场景等，突破模态融合瓶颈，推动全模态能力跃迁。

更新于 2025-05-23北京|上海

【北斗】多模态基座大模型算法研究员（视觉/语音/全模态融合）

校招核心本地商业-基

视觉方向 1.探索大规模/超大规模多模态视觉大模型，并进行极致系统优化，数据建设、指令微调、偏好对齐、模型优化。 2.探索统一的多模态大模型架构，打通理解与生成之间的壁垒，研究如何在单一模型框架下实现对多模态信息的深度理解与高质量生成。 3.探索多模态推理模型（Reasoning）架构、提升多模态在学科、通用视觉任务上的思考和推理能力。 4.探索视觉GUI Agent模型构建，提升GUI场景下的理解、规划和决策能力，进而提升人机交互的性能。 5.探索具身智能大模型的构建，提升机器人在物理场景中的模仿学习和强化学习算法，提升具身智能的多模态处理能力以及与开放世界的物理交互能力。 6.探索多模态视觉大模型后训练方法，探索指令微调、强化学习等后训练策略，提升模型的性能。语音方向 1.语音表征学习：探索同时适用于理解和生成任务、兼顾学习效率和效果的语音表征。 2.模型结构与预训练方法：研究可大规模扩展的模型结构，高效学习语音和文本知识，提升模型的理解和生成能力。 3.音频理解：在语音(Speech)之外，探索更广泛的音频（Audio，如音乐、环境声）理解能力。 4.音频生成：探索高质量音频生成能力，具备强表现力、多风格、多语种、多音色等。 5.后训练方法：探索基于 SFT 和 RL 的后训练策略，进一步提升模型能力上限，。 6.智能交互技术研究，探索高效的智能交互技术，增强系统交互过程中的智能能力、拟人度、自然度和主动性。全模态融合大语言模型最近取得的突破，加速了多模态大模型的发展。全模态大模型（Omni-MLLM）通过融入如视觉、语音等模态，拓展了多模态大语言模型的能力，有助于更全面、多维度地理解与生成各种模态，提供更强的智能以及更智能的交互模式。 1.多模态表征对齐：研究在统一模型架构下提取并共享视觉、语音、语言等模态的特征；基于对比学习、自监督学习，优化多模态对齐过程；针对视频、音频等数据，研究时间序列信息的对齐技巧。 2.多模态统一模型架构：探索统一全模态大模型架构，研究高效全模态预训练技术，使之能够高效处理文本、图像、视频和语音数据，并生成涵盖文本、音频和图像等多种模态的输出 3.多模态知识迁移与能力增强：研究在不同模态间的能力迁移，激发模型在跨模态任务中的涌现能力。

更新于 2025-05-23北京|上海|深圳

【北斗】基座大模型算法研究员（通用 Agent/搜索Agent/安全方向）

校招核心本地商业-基

通用Agent方向： 1.探索模型通过 RL Scaling 等方式使用成套工具解决复杂问题的行动和规划能力，包括 Human in the Loop 多轮交互下 Agent 基础建模的新方案、以及与复杂环境的交互学习能力； 2.探索模型在 Non-Rule Based Outcome 场景下利用复杂信息进行有效推理的范式，包括 Proactive Agent 的建模方案； 3.探索研究更多内在奖励的机制，从而激发模型主动学习和自我更新的能力； 4.探索构建长期记忆机制，为下一代高效的推理模型、长序列推理及建模提供基础。搜索Agent方向： 1.参与通用AI搜索中Agent的框架建设和算法优化，并能在实际业务场景进行落地； 2.探索指令微调、偏好对齐（RLHF/DPO）和LLM Reasoning（如思维链、多步推理）在AI搜索场景的应用，特别是提升复杂搜索能力（如Deep Research）； 3.构建端到端Agent优化系统，将意图识别、推理规划、工具调用、信息检索和结果生成等步骤联合优化，探索大模型AI搜索Agent的智能上限； 4.研究AI搜索Agent的自动评测标准和方法，构建公平、合理并且全面的评测系统加速Agent迭代； 5.跟踪大模型和搜索最前沿的技术，包括但不限于多模态、Scaling Law、训练范式探索、长文本优化、高效训推框架探索。安全方向： 1.负责LLM、VLM通用大模型与垂类大模型的内容安全研发，提升模型识别风险、规避风险、处置风险的能力。 2.负责通过定性、定量方法评估策略表现，进行策略迭代更新，不断提升内容安全效果。 3.深度参与大模型、安全、算法等领域的调研，结合通用模型的新技术、新场景，如LongCoT、Agent、GUI，积极探索相应新技术、新场景上，安全方案的创新和落地。

更新于 2025-05-23北京|上海