菜鸟菜鸟-语音技术专家-Voice Agent

社招全职5年以上技术类-开发2026-02-04地点：杭州状态：招聘

扫码手机上打开

任职要求

1、计算机相关专业本科及以上，5 年以上后端或架构经验
2、精通 Java / Python 至少一种语言，具备服务端开发能力
3、有 LLM 工程化能力：RAG、Agent 编排、Function Calling、Prompt 工程实践经验
4、熟悉语音链路技术栈：ASR/TTS/VAD/WebRTC APM/实时音频处理
5、掌握微服务、高可用架构、自动扩缩容、消息队列、缓存、CI/CD
6、具备复杂系统调优经验（延迟、吞吐、Token、缓存优化）如：模型推理延迟优化、Streaming …

登录查看完整任职要求

微信扫码，1秒登录

工作职责

1、负责 Voice Agent 中控编排系统（Orchestrator）的设计与落地
2、构建 ASR → NL → LLM → TTS 端到端语音链路并做工程化优化（并发控制、低延迟优化、分片流式处理、错误恢复机制）
3、设计与优化 Prompt 工程、Function Calling、工具调用、Agent 状态机
4、构建 Voice Agent 的“中断/打断”检测体系与决策引擎，包括不限于：音频能量检测、ASR 级别中断词库、LLM-based interrupt classifier、优先级调度。
5、推动 Agent 系统的质量体系建设，包括不限于：自动化评测、回放系统、Agent Trace、模型响应审计、Latency Profiling。
6、深度参与 Voice Agent 的性能优化，如：Token 成本优化、缓存策略、向量库优化、ASR/TTS 服务吞吐提升、服务并发治理。吞吐、并发、缓存、Token 成本
7、跨团队协作，与产品/算法/SRE 共同推进 Voice Agent 场景落地，包括不限于：新功能快速落地、A/B 实验、Agent 行为修正。
8、跟踪 Voice/LLM/Agent 前沿技术，例如：语音大模型（Whisper/Salmonn）、MCP、Multi-Agent、上下文压缩、OpenAI Realtime API

📮 投递简历 ✨AI模拟面试

难度：

包括英文材料

Java+

Python+

大模型+

RAG+

AI agent+

Prompt+

语音识别+

语音合成+

微服务+

还有更多 •••

登录查看完整学习资料

相关职位

千问C端事业群-高级技术专家-语音工程方向

社招3年以上技术类-开发

1、负责语音方向团队建设，支持整体系统架构设计及核心功能开发； 2、对语音技术进行持续优化，支持先进语音大模型技术落地，提升语音产品的延迟、吞吐、稳定性； 3、负责语音系统的日常维护和迭代升级，发现并解决系统中的技术问题； 4、对接各类算法和业务场景，负责语音大模型相关项目的落地与优化，全链路提升产品语音交互体验。

更新于 2026-03-25广州

语音交互技术高级专家

社招10年以上研发类

1、紧跟全球语音交互技术前沿（语音识别ASR、语音合成TTS、自然语言理解NLU、声纹识别等），牵头解决语音交互领域的关键技术难题，如复杂场景下的远场识别、低资源语种适配、情感语音合成、多轮对话意图理解等，突破技术瓶颈，打造行业领先的语音交互技术体系。 2、主导重大语音交互技术研发项目，从需求分析、方案设计、研发实施到测试上线全流程把控，制定项目风险预案，解决项目推进中的关键问题。 3、推动技术专利布局与学术成果输出，提升公司在行业内的技术影响力，牵头参与行业标准制定，引领语音交互技术发展方向。 4、评估技术商业化潜力，推动技术成果向产品转化，跟踪项目落地后的技术效果与用户反馈，持续迭代优化技术方案，提升语音交互产品的用户体验与市场竞争 5、对接行业顶尖科研机构、高校及技术合作伙伴，开展产学研合作，引入前沿技术与创新理念；参与行业技术交流与峰会，建立良好的行业技术合作生态。

更新于 2026-01-09南京|上海

通义实验室-技术专家-语音/多模态

社招3年以上技术-基础平台

团队介绍：通义实验室语音工程团队主要负责通义系列模型在语音及其他更广泛的多模态交互、理解场景下的落地和应用。我们在阿里云上提供业界领先、开箱即用的模型服务API，支持全世界的开发者，以及阿里集团内如钉钉、淘天、夸克等30+业务线。我们同时也在和算法科学家们一道探索最前沿模型的能力边界，构建以多模态大模型为核心的新产品，向外展示通义的技术先进性和影响力。职位描述： 1. 探索应用多模态理解与生成大模型，并进行极致端到端系统优化。 2. 建设超低延迟、高可用、可扩展的分布式模型服务系统，支持业务算法生产和高效迭代。 3. 探索构建多模态交互的通用多模态Agent、应用，推动多模态模型的落地和应用，研发以AI技术为核心的新技术、新产品。 4. 分析和解决复杂的软硬件技术问题，提供可靠的技术解决方案。跟踪行业最新的多模态大模型和应用开发工具和技术，将最佳实践和创新集成到平台中。 5. 撰写技术文档，包括设计规范、操作手册和最佳实践指南。

更新于 2026-03-25北京|杭州

数据技术及产品部-语音数据处理专家-杭州/北京

社招3年以上技术类-算法

1. 研发支撑自动标注、并对标冲击业界 SOTA 的语音算子（识别与对齐、说话人与声学、中文方言/口音/LID、多音字 G2P、中英混、TN/ITN 等），负责训练、评估、迭代与持续对标； 2. 建设亿小时级语音数据资产中枢：内容族与资产族两族标签的 schema/ontology、取数引擎、元数据库、多维查询与按标签取数； 3. 设计跨源去重治理与 train-eval 去污 pipeline，建立数据覆盖率矩阵与缺口诊断，驱动数据按需补齐、形成质量闭环。

更新于 2026-07-10北京|杭州