美团【基座大模型北斗实习】原生多模态大模型研究

实习兼职核心本地商业-基础研发平台2026-04-03地点：北京 | 上海状态：招聘

扫码手机上打开

任职要求

岗位要求：
1、熟悉NLP、LLM、MLLM、RL等相关领域，对其中一个或多个方向有深入的研究经历，且有相关实际项目经验；
2、熟悉Python、C++等至少一门编程语言，熟悉LINUX环境；
3、熟…

登录查看完整任职要求

微信扫码，1秒登录

工作职责

简介：原生多模态旨在以统一的范式处理文本、视觉、语音等各个模态的数据，从而更加自然地进行模态融合，以及通过scaling友好的训练范式，解锁模型智能的新维度。

研究课题包括但不限于：
1、探索early fusion阶段，引入图文交错/audio等多模态序列数据自监督预训练带来的scaling价值。
2、原生全模态预训练的training dynamic探究，模态之间的关系建模。
3、通过SFT / RL等手段，借助多模态token解锁模型新的智能维度，提升模型解决Robot/Gaming等物理世界问题的能力。

📮 投递简历 ✨AI模拟面试

难度：

包括英文材料

NLP+

大模型+

Python+

C+++

Linux+

Megatron+

还有更多 •••

登录查看完整学习资料

相关职位

【基座大模型北斗实习】基座大模型-Coding方向

实习核心本地商业-基

简介：Coding是当前 AI 技术落地最快、商业价值最大的方向之一。从代码补全到自主修复 GitHub Issue、到端到端软件工程自动化，大模型 Coding 能力的突破正在重塑整个软件开发范式。我们正在构建下一代具有强大代码生成与自主 Agent 能力的基座模型，打造可在真实工程环境中独立运作的 AI 开发者。岗位职责 1、负责基座大模型在代码生成、代码理解、代码 debug 等方向的能力研究与提升，提升模型在Coding任务中的 Planning、长上下文理解等核心能力。 2、探索模型在 repo 级代码理解、跨文件修改、自主 debug 等复杂任务上的能力边界。 3、参与 Post-training（SFT / RL/ PRM）等 Alignment 方法在 Coding 场景的研究与落地。

更新于 2026-04-03北京|上海

【基座大模型北斗实习】Auto Research & Development Agent研究

实习核心本地商业-基

简介：研发下一代自动化研究智能体系统，专注于提升模型在长周期、高价值复杂任务中的自主执行能力，减少对人类指导的依赖。 1、自动化研究场景下的大模型能力建设，提升模型在复杂任务分解、长程推理、研究规划、工具使用、代码生成与执行、证据整合与研究写作等方面的能力。 2、长程任务中的上下文组织与记忆管理，设计优化 context scaling、context compression、memory selection、状态追踪与长期依赖建模，提升模型在复杂研究任务中的上下文利用效率与稳定性。 3、自主研究任务相关环境与自动实验闭环建设，构建 search、browser、retrieval、code execution、verifier 等训练与评测环境，打通训练脚本迭代、实验编排、结果比对、版本保留/回滚与复现验证流程。 4、训练策略、数据配方与反馈信号设计，围绕 SFT、RLVR等方法，结合数据构造、数据清洗、超参数优化以及 outcome-level / process-level 信号设计，提升模型在开放研究任务中的完成率、事实正确性和稳定性。 5、面向真实 research 任务的评测体系与错误分析闭环建设，建立 benchmark、自动化评测指标，系统分析搜索遗漏、证据误判、上下文污染、推理漂移、错误归因与长链路失稳等问题，并推动针对性优化。

更新于 2026-04-03北京|上海

【基座大模型北斗实习】面向Agentic场景的语音交互大模型前沿研究

实习核心本地商业-基

简介：下一代智能体将彻底打破“键盘与屏幕”的束缚，语音将成为人类与AI协作最自然、最高效的入口。这要求模型不仅能“听懂”字面意思，还要能感知语气、情绪与环境音，并基于这些多维度的语音信息直接进行思考、规划与行动。本课题聚焦于构建端到端（End-to-End）的语音原生大模型，并将其深度融入Agentic工作流，打造“边听、边想、边说、边做”的新一代语音智能体，推动AI从传统的“级联式语音助手（ASR+LLM+TTS）”走向具备极低延迟、全双工交互与复杂任务执行能力的真实世界数字伙伴。具体地，我们关注如下研究方向： 1、端到端语音-语言统一建模与理解：摒弃传统的级联架构，探索将连续的音频流（包含语音、副语言特征、环境音）与离散的文本Token在统一的自回归/非自回归架构下进行联合建模。使Agent能够无损保留语音中的情绪、重音、语速等声学特征，并在极低延迟下实现跨模态的深度语义理解。 2、实时全双工流式交互与动态响应：研究面向真实对话场景的流式输入输出机制，攻克语音智能体在自然对话中的“听觉注意力”问题。探索支持随时打断（Interruption）、智能插话（Backchanneling）、端点检测（VAD）与即时状态切换的底层模型架构，实现媲美真人的丝滑对话节奏。 3、语音驱动的Agent规划与工具调用（Voice-to-Action）：探索如何将模糊、口语化、包含冗余信息的自然语音指令，直接转化为精准的Agent意图与工具调用（Tool Use/API Call）序列。研究语音模态下的长上下文记忆、多轮语音交互中的意图追踪，以及“边对话边执行任务”的并行处理能力。 4、面向语音Agent的高效对齐与强化学习：探索适用于语音大模型的训练范式与对齐策略。包括但不限于：基于人类偏好的语音强化学习（RLHF for Audio）、语音交互轨迹的大规模构建、针对“对话自然度”与“任务完成率”的多目标奖励建模，以及基于环境反馈的语音Agent自进化机制。

更新于 2026-04-03北京|上海|深圳

【基座大模型北斗实习】面向真实世界的全模态搜索智能体前沿研究

实习核心本地商业-基

简介：本课题主要聚焦于真实世界中的搜索智能体遇到的实际问题，分别从基础指令遵循、模态扩展、交互形式和学习范式等四个方面进行研究： 1、智能体复杂指令遵循：大模型目前已经从实验室走向实际的生产环境，从关注Benchmark指标转为重视实际使用体验。真实使用场景以Train-Free + System Prompt的方式居多，其中System Prompt通常具有指令复杂、组合方式多样、变动频繁等特点。该方向主要研究内容有两点：一是大模型对于工具/Skill 调用的指令遵循能力；二是大模型对于复杂总结指令的遵循能力。 2、全模态深度搜索智能体：最真实的物理世界都是全模态的，所以搜索智能体不仅在输入上需要支持全模态，而且在整个搜索过程以及最后的结果呈现上都需要支持全模态。该方向主要研究怎么将已经比较成熟的搜索智能体从单一的文本模态扩展成同时支持文本、语音、图像等多种形式的全模态智能体，要解决全模态规划、深度推理、上下文管理和记忆带来的挑战。 3、主动交互深度研究智能体：智能体时代，所有的智能体都应该是一个具有自主意识的个体，能够主动提供服务。而当前的深度研究智能体，还处于被动给人提供信息的状态，基本不具有自主意识。该方向主要研究怎么让深度研究智能体具有自主意识、能够主动挖掘人类的真实意图、主动引导人类进行多轮互动，最终给人伙伴式体验并提升人的认知。 4、智能体学习范式：当前智能体学习范式以RLVR为主，但是RLVR具有奖励稀疏、适用范围有限、训练不稳定和训练成本高等缺点。该方向主要研究方向包括但不限于：熵机制研究、过程奖励模型（PRM）、开放问题rubrics-based RL、credit assignment、Thinking/Tool Call Budget等。

更新于 2026-04-03北京|上海