logo of meituan

美团【基座大模型北斗实习】面向Agentic场景的语音交互大模型前沿研究

实习兼职核心本地商业-基础研发平台地点:北京 | 上海 | 深圳状态:招聘

任职要求


1、本科及以上学历,计算机、人工智能、自动化、信号处理、数学等相关专业在读;
2、在以下一个或多个领域有较深入的研究或实践经验:音频/语音大模型(Audio-LLM / Speech Language Models)、端到端语音对话系统、大语言模型(LLM)、Agent系统、语音识别/合成(ASR/TTS)、强化学习;
3、熟悉Python,熟练使用PyTorch等深度学习框架,具备较强的工程实现能力,有大规模分布式训练或流式推理优化实践经验者优先;
4、好奇心驱动,具备出色的问题分析与自主探索能力,…
登录查看完整任职要求
微信扫码,1秒登录

工作职责


简介:下一代智能体将彻底打破“键盘与屏幕”的束缚,语音将成为人类与AI协作最自然、最高效的入口。这要求模型不仅能“听懂”字面意思,还要能感知语气、情绪与环境音,并基于这些多维度的语音信息直接进行思考、规划与行动。本课题聚焦于构建端到端(End-to-End)的语音原生大模型,并将其深度融入Agentic工作流,打造“边听、边想、边说、边做”的新一代语音智能体,推动AI从传统的“级联式语音助手(ASR+LLM+TTS)”走向具备极低延迟、全双工交互与复杂任务执行能力的真实世界数字伙伴。

具体地,我们关注如下研究方向:
1、端到端语音-语言统一建模与理解: 摒弃传统的级联架构,探索将连续的音频流(包含语音、副语言特征、环境音)与离散的文本Token在统一的自回归/非自回归架构下进行联合建模。使Agent能够无损保留语音中的情绪、重音、语速等声学特征,并在极低延迟下实现跨模态的深度语义理解。
2、实时全双工流式交互与动态响应: 研究面向真实对话场景的流式输入输出机制,攻克语音智能体在自然对话中的“听觉注意力”问题。探索支持随时打断(Interruption)、智能插话(Backchanneling)、端点检测(VAD)与即时状态切换的底层模型架构,实现媲美真人的丝滑对话节奏。
3、语音驱动的Agent规划与工具调用(Voice-to-Action): 探索如何将模糊、口语化、包含冗余信息的自然语音指令,直接转化为精准的Agent意图与工具调用(Tool Use/API Call)序列。研究语音模态下的长上下文记忆、多轮语音交互中的意图追踪,以及“边对话边执行任务”的并行处理能力。
4、面向语音Agent的高效对齐与强化学习: 探索适用于语音大模型的训练范式与对齐策略。包括但不限于:基于人类偏好的语音强化学习(RLHF for Audio)、语音交互轨迹的大规模构建、针对“对话自然度”与“任务完成率”的多目标奖励建模,以及基于环境反馈的语音Agent自进化机制。
包括英文材料
学历+
大模型+
AI agent+
语音识别+
语音合成+
强化学习+
还有更多 •••