菜鸟菜鸟-语音技术专家-Voice Agent
任职要求
1、计算机相关专业本科及以上,5 年以上后端或架构经验 2、精通 Java / Python 至少一种语言,具备服务端开发能力 3、有 LLM 工程化能力:RAG、Agent 编排、Function Calling、Prompt 工程实践经验 4、熟悉语音链路技术栈:ASR/TTS/VAD/WebRTC APM/实时音频处理 5、掌握微服务、高可用架构、自动扩缩容、消息队列、缓存、CI/CD 6、具备复杂系统调优经验(延迟、吞吐、Token、缓存优化)如:模型推理延迟优化、Streaming …
工作职责
1、负责 Voice Agent 中控编排系统(Orchestrator)的设计与落地 2、构建 ASR → NL → LLM → TTS 端到端语音链路并做工程化优化(并发控制、低延迟优化、分片流式处理、错误恢复机制) 3、设计与优化 Prompt 工程、Function Calling、工具调用、Agent 状态机 4、构建 Voice Agent 的“中断/打断”检测体系与决策引擎,包括不限于:音频能量检测、ASR 级别中断词库、LLM-based interrupt classifier、优先级调度。 5、推动 Agent 系统的质量体系建设,包括不限于:自动化评测、回放系统、Agent Trace、模型响应审计、Latency Profiling。 6、深度参与 Voice Agent 的性能优化,如:Token 成本优化、缓存策略、向量库优化、ASR/TTS 服务吞吐提升、服务并发治理。吞吐、并发、缓存、Token 成本 7、跨团队协作,与产品/算法/SRE 共同推进 Voice Agent 场景落地,包括不限于:新功能快速落地、A/B 实验、Agent 行为修正。 8、跟踪 Voice/LLM/Agent 前沿技术,例如:语音大模型(Whisper/Salmonn)、MCP、Multi-Agent、上下文压缩、OpenAI Realtime API
1.负责基于语音大模型的voice agent研发工作,包括ASR+LLM+TTS的应用技术以及语音端到端大模型应用工程开发 2.参与语音模块中间件的架构设计与开发,参与语音相关文本大模型链路的开发 3.与算法团队、产品团队、客户端团队紧密合作,解决技术难题,推动产品迭代 4.研究并应用前沿的语音工程技术,持续优化系统性能和用户体验
1、负责小鹏汽车海外市场的智能语音多语言能力建设,包括但不限于模型训练、调优和自测; 2、与国内团队紧密合作,确保语音识别和交互系统的准确性和流畅性,交付符合海外用户语音交互习惯的功能; 3、参与多语言大语言模型的研发和应用,跟踪最新的语音识别技术和对话系统发展趋势,将前沿技术应用到产品中,并通过用户反馈和数据分析,不断优化语音交互体验和智能化水平。 1. Responsible for the construction of multi-language capabilities for Xiaopeng Motors' intelligent voice in overseas markets, including but not limited to model training, tuning, and self-testing. 2. Work closely with domestic teams to ensure the accuracy and fluency of voice recognition and interaction systems, delivering features that meet the voice interaction habits of overseas users. 3. Participate in the research and development and application of multi-language large language models, track the latest trends in voice recognition technology and dialogue system development, apply cutting-edge technologies to products, and continuously optimize voice interaction experience and intelligence level through user feedback and data analysis.
应用声纹识别、音频理解、音频增强等音频技术处理海量音频数据,紧跟业界前沿技术方向,参与构建生成式音频系统,从文本、视频、音频等多模态输入出发,研发高自然度、风格多样、可控性强的语音、音乐与音效生成模型,期待追求卓越、自我驱动、聪明乐观的优秀人士加入虎鲸文娱集团,共同开创影视工业化的商业新格局。 具体职责包括但不限于: 1、负责基于海量数据和复杂业务场景,和团队其他成员一起构建面向真实影视剧场景的一流音频合成系统,共同推动技术产品化与商业化; 2、负责音频合成相关算法设计,覆盖以下一个或多个方向: ꔷ 高拟人度、情绪丰富的语音合成,包括Emotional TTS、Speaker Recognition、Instant Voice Clone等模块的优化与落地; ꔷ 跨模态音频生成,包括Video-to-Audio、Text-to-Audio等方向的模型优化与落地; ꔷ 端到端的音乐生成,包括Lyric-to-Song, CoT, ICL等模块的优化与落地; 3、跟踪业界前沿技术和方法,持续探索音频合成技术的新能力和新应用,解决资源受限场景的实际问题,持续提升音频合成核心能力