高德地图voice agent算法实习生

实习兼职高德研究型实习生2026-02-04地点：北京状态：招聘

扫码手机上打开

任职要求

职位要求：
985/211高校研究生及以上学历或优秀本科生，计算机、人工智能、软件、数学等相关专业，有语音、自然语言处理、多模态等背景；
在语音领域（包括但不限于语音对话 / TTS / ASR）有一线的实践经验；
熟练掌握C/C++，Python，Shell编程语言，对数据结构和算法设计有较好的理解；
熟悉 Pytorch / megatron等深度学习框架，熟悉 Transformer 架构以及大语言模型基础…

登录查看完整任职要求

微信扫码，1秒登录

工作职责

团队介绍：
高德语音技术部，是负责高德全栈语音技术的综合性团队。团队核心技术能力包括：自研TTS基座大模型、端侧模型、多语种、RTC流式语音、语音内容生成、语音识别、多模态模型、模型服务与推理。业务支撑面向高德全部核心场景，包括语音导航、AI领航员、IP语音定制、国际化、AI语音助手、智能外呼、内容生成等。
团队定位是通过前沿语音技术的研究和落地，赋能下一代AI产品创新。近期部分技术（https://arxiv.org/abs/2507.12197https://arxiv.org/abs/2507.12197）和产品进展介绍（https://mp.weixin.qq.com/s/cCeHbNW0jbC_LNVPZlGeHg）https://mp.weixin.qq.com/s/cCeHbNW0jbC_LNVPZlGeHghttps://arxiv.org/abs/2507.12197）和产品进展介绍（https://mp.weixin.qq.com/s/cCeHbNW0jbC_LNVPZlGeHg）

具体职责：

围绕voice agent/speech language model的研究工作，包括但不限于如下事项：
跟进最领先的语音交互技术，包括但不限于提出新的技术框架、改进现有的算法、持续提升相关技术及业务指标，鼓励撰写论文及申请专利；
结合业务场景，探索跨模态（文字/语音/视觉）混合训练的最佳实践，探索基于speech language model的后训练(SFT+RL)技术，持续优化交互响应、交互内容，结合规划agent/工具调用agent，持续提升voice agent的交互体验，从而反馈到高德agent的整体能力；
探索流式全双工对话中，更加高效且合理的模型架构，包括但不限于COT Reasoning in streaming full-duplex等；
海量的语音数据，尤其是对话数据的处理构建：定性分析、定量评估、参与设计自动评估框架，研发 scalable 的改进方案，持续提升数据质量；

📮 投递简历 ✨AI模拟面试

难度：

包括英文材料

学历+

NLP+

语音合成+

语音识别+

C+

C+++

Python+

Bash+

数据结构+

还有更多 •••

登录查看完整学习资料

相关职位

【北斗实习】大模型应用算法工程师-【多场景Agent】

实习核心本地商业-业

【课题说明】以大模型对话技术为核心，探索前沿技术问题。研究方向包括角色扮演、个性化对话、记忆管理，拟人化，数字人等，主要业务场景包括运营，招聘，销售，审核等。目标是构建覆盖多个场景的Agent系统，实现“技术驱动业务范式”的升级转变。【建议研究方向】 1. 大模型个性化（Personalized LLM）：通过角色扮演、用户行为数据挖掘与建模、上下文理解等方法，分析用户情感状态，提升模型的个性化回复能力。 2. 面向语音交互的拟人化技术（Voice Agent）：优化大模型在语音对话场景的效果，提升大模型的拟人化水平，探索下一代端到端语音对话大模型的技术实现。 3. 记忆管理与增强（Memory）：通过优化模型长上下文能力、设计记忆抽取与管理模块，提升系统的记忆能力。 4. 基于LLM的RL（LLM-based RL）：通过强化学习，提升模型规划、决策、推理等能力。我们将提供充足的计算资源和良好的工作自由度，目标是产出有影响力的工作，解决业务实践中的问题。

更新于 2025-05-27北京

高德-大模型应用算法工程师-Agent方向

社招2年以上技术类-算法

团队简介我们是高德行中智能团队，我们的使命是基于高德海量高质的数据，最前沿的AI算法，最可靠的通用工程架构，打造有温度、有惊喜、科技感十足的下一代出行体验；在这里，我们一起建设应对超大业务规模和场景，超高业务复杂度的高效、可靠、鲁棒的技术架构；一起用最前沿的机器学习、深度学习、AI算法探索智慧出行最具挑战性的行业难题；一起用最尖端的AIGC、LLM/LVM、多模态理解与生成技术；基于语音、视觉、位置等多模态信息搭建高吞吐、低时延、强智能、真人感的Agent体系，打造全新人和环境交互形态；职位描述探索下一代多模态出行体验基于全双工多模态agent，构建人和环境的全新交互形态

更新于 2025-12-01北京

智能信息-AI语音研发工程师/专家-北京

社招3年以上技术类-开发

1.负责基于语音大模型的voice agent研发工作，包括ASR+LLM+TTS的应用技术以及语音端到端大模型应用工程开发 2.参与语音模块中间件的架构设计与开发，参与语音相关文本大模型链路的开发 3.与算法团队、产品团队、客户端团队紧密合作，解决技术难题，推动产品迭代 4.研究并应用前沿的语音工程技术，持续优化系统性能和用户体验

更新于 2025-08-01北京

菜鸟-语音技术专家-Voice Agent

社招5年以上技术类-开发

1、负责 Voice Agent 中控编排系统（Orchestrator）的设计与落地 2、构建 ASR → NL → LLM → TTS 端到端语音链路并做工程化优化（并发控制、低延迟优化、分片流式处理、错误恢复机制） 3、设计与优化 Prompt 工程、Function Calling、工具调用、Agent 状态机 4、构建 Voice Agent 的“中断/打断”检测体系与决策引擎，包括不限于：音频能量检测、ASR 级别中断词库、LLM-based interrupt classifier、优先级调度。 5、推动 Agent 系统的质量体系建设，包括不限于：自动化评测、回放系统、Agent Trace、模型响应审计、Latency Profiling。 6、深度参与 Voice Agent 的性能优化，如：Token 成本优化、缓存策略、向量库优化、ASR/TTS 服务吞吐提升、服务并发治理。吞吐、并发、缓存、Token 成本 7、跨团队协作，与产品/算法/SRE 共同推进 Voice Agent 场景落地，包括不限于：新功能快速落地、A/B 实验、Agent 行为修正。 8、跟踪 Voice/LLM/Agent 前沿技术，例如：语音大模型（Whisper/Salmonn）、MCP、Multi-Agent、上下文压缩、OpenAI Realtime API

更新于 2026-02-04杭州