菜鸟菜鸟-语音技术专家-Voice Agent
任职要求
1、计算机相关专业本科及以上,5 年以上后端或架构经验 2、精通 Java / Python 至少一种语言,具备服务端开发能力 3、有 LLM 工程化能力:RAG、Agent 编排、Function Calling、Prompt 工程实践经验 4、熟悉语音链路技术栈:ASR/TTS/VAD/WebRTC APM/实时音频处理 5、掌握微服务、高可用架构、自动扩缩容、消息队列、缓存、CI/CD 6、具备复杂系统调优经验(延迟、吞吐、Token、缓存优化)如:模型推理延迟优化、Streaming …
工作职责
1、负责 Voice Agent 中控编排系统(Orchestrator)的设计与落地 2、构建 ASR → NL → LLM → TTS 端到端语音链路并做工程化优化(并发控制、低延迟优化、分片流式处理、错误恢复机制) 3、设计与优化 Prompt 工程、Function Calling、工具调用、Agent 状态机 4、构建 Voice Agent 的“中断/打断”检测体系与决策引擎,包括不限于:音频能量检测、ASR 级别中断词库、LLM-based interrupt classifier、优先级调度。 5、推动 Agent 系统的质量体系建设,包括不限于:自动化评测、回放系统、Agent Trace、模型响应审计、Latency Profiling。 6、深度参与 Voice Agent 的性能优化,如:Token 成本优化、缓存策略、向量库优化、ASR/TTS 服务吞吐提升、服务并发治理。吞吐、并发、缓存、Token 成本 7、跨团队协作,与产品/算法/SRE 共同推进 Voice Agent 场景落地,包括不限于:新功能快速落地、A/B 实验、Agent 行为修正。 8、跟踪 Voice/LLM/Agent 前沿技术,例如:语音大模型(Whisper/Salmonn)、MCP、Multi-Agent、上下文压缩、OpenAI Realtime API
1.负责基于语音大模型的voice agent研发工作,包括ASR+LLM+TTS的应用技术以及语音端到端大模型应用工程开发 2.参与语音模块中间件的架构设计与开发,参与语音相关文本大模型链路的开发 3.与算法团队、产品团队、客户端团队紧密合作,解决技术难题,推动产品迭代 4.研究并应用前沿的语音工程技术,持续优化系统性能和用户体验

团队介绍: 高德语音技术部,是负责高德全栈语音技术的综合性团队。团队核心技术能力包括:自研TTS基座大模型、端侧模型、多语种、RTC流式语音、语音内容生成、语音识别、多模态模型、模型服务与推理。业务支撑面向高德全部核心场景,包括语音导航、AI领航员、IP语音定制、国际化、AI语音助手、智能外呼、内容生成等。 团队定位是通过前沿语音技术的研究和落地,赋能下一代AI产品创新。 具体职责: 围绕voice agent/speech language model的研究工作,包括但不限于如下事项: 1. 为满足AGI时代"活人感"语音交互的需求,致力于完成包括但不限于以下目标:复杂声学+时空信息的声学理解、通过图灵测试水平的交互节奏 / 交流内容 / 语音输出,并完成所需的技术创新; 2. 多模态对话大模型的研发、语音对话pipeline方案以及端到端方案的交互能力搭建、全双工交互能力搭建,落地到高德多项agent应用场景; 3. 跟进最领先的语音理解/语音生成/语音交互技术,包括但不限于提出新的技术框架、改进现有的算法、持续提升相关技术及业务指标,鼓励撰写论文及申请专利; 4. 探索前沿方向,如更加高效且合理的模型架构、跨模态(文字/语音/视觉)混合训练的最佳实践、基于speech language model的后训练技术、COT Reasoning in streaming full-duplex、proactive interaction,等等。结合全链路各个agent,持续提升voice agent的交互体验; 5. 海量的语音数据的处理构建:定性分析、定量评估、参与设计自动评估框架,研发 scalable 的改进方案,持续提升数据质量。
1、负责小鹏汽车海外市场的智能语音多语言能力建设,包括但不限于模型训练、调优和自测; 2、与国内团队紧密合作,确保语音识别和交互系统的准确性和流畅性,交付符合海外用户语音交互习惯的功能; 3、参与多语言大语言模型的研发和应用,跟踪最新的语音识别技术和对话系统发展趋势,将前沿技术应用到产品中,并通过用户反馈和数据分析,不断优化语音交互体验和智能化水平。 1. Responsible for the construction of multi-language capabilities for Xiaopeng Motors' intelligent voice in overseas markets, including but not limited to model training, tuning, and self-testing. 2. Work closely with domestic teams to ensure the accuracy and fluency of voice recognition and interaction systems, delivering features that meet the voice interaction habits of overseas users. 3. Participate in the research and development and application of multi-language large language models, track the latest trends in voice recognition technology and dialogue system development, apply cutting-edge technologies to products, and continuously optimize voice interaction experience and intelligence level through user feedback and data analysis.