阿里巴巴业务技术-TTS算法专家-直播

社招全职3年以上2025-10-30地点：北京 | 杭州状态：招聘

扫码手机上打开

任职要求

1. 计算机科学、人工智能或相关专业本科及以上学历，有语音合成、数字人技术背景者优先。
2. 精通Python、C++等编程语言，对语音信号处理、深度学习有深入理解。
3…

登录查看完整任职要求

微信扫码，1秒登录

工作职责

1. 负责淘宝直播数字人的语音合成系统开发，包括语音建模、情感表达、语速调节等功能的实现。
2. 优化TTS引擎，提高语音合成的自然度和流畅度，使数字人的声音更加贴近真人。
3. 研究并应用业界&学界前沿的语音合成大模型技术，提升直播互动体验。
4. 与产品、设计团队紧密合作，将TTS技术无缝集成到直播平台中，提升用户参与感。

📮 投递简历 ✨AI模拟面试

难度：

包括英文材料

学历+

Python+

C+++

还有更多 •••

登录查看完整学习资料

相关职位

钉钉-语音算法-工程师/专家

社招1年以上技术类-算法

语音是人机交互中最自然、最便捷的模态。随着大模型时代的到来，语音AI的研究正从单一任务向多模态、高自然度交互演进。在阿里巴巴，我们的语音技术已深度植入流媒体、直播互动、智能客服、办公会议、AIoT及数字人等多元场景。我们正在寻找志同道合的伙伴，共同探索语音技术在复杂场景下的极限。在这里，你不仅能触达海量的真实数据，更能亲手打造影响亿万用户的交互体验。一段更具挑战、更有成就感的旅程正待开启！岗位职责： 1. 核心算法研发：负责语音信号处理领域的前沿算法研究与落地，包括但不限于语音识别（ASR）、语音合成（TTS）、说话人识别与分离（Speaker Verification/Diarization）、语音增强及端到端语音交互方案； 2. 专项技术突破： ● 声纹与属性识别：负责声纹识别、语种识别以及情绪识别（Emotion Recognition）的算法优化，提升在真实业务场景下的识别精度与跨域泛化能力； ● 音频内容理解：基于语义与声学特征，深度挖掘语音中的情感、意图及环境信息，赋能直播审核、内容分析等业务； ● AI-VAD：研发基于深度学习的高鲁棒性语音活动检测（VAD）算法，解决强噪声、多语者叠加、远场等复杂环境下的起停点检测痛点； 3. 模型工程化落地：推动算法在云端或端侧的部署优化，在保障性能（精度/鲁棒性）的同时，平衡算力消耗与推理延迟； 4. 技术预研：跟踪并探索语音领域前沿技术（如大语言模型与语音的结合、Speech-to-Speech原生端到端交互等）。

更新于 2026-02-02杭州

蚂蚁集团-语音算法专家-杭州/北京

社招2年以上技术类-算法

1. 面向蚂蚁集团AGI产品研发语音相关能力，助力蚂蚁集团基于大模型的智能交互业务发展； 2. 探索并落地前沿的语音算法技术，方向包括但不限于语音识别、语音合成、语音克隆等； 3. 负责和承接蚂蚁集团数十个场景中涉及的语音识别、语音合成的算法能力建设。

更新于 2026-03-25杭州|深圳|北京

高德-高级语音算法专家-前沿方向

社招3年以上技术类-算法

团队介绍：高德语音技术部，是负责高德自研全栈语音技术的综合性团队。团队核心技术能力包括：自研TTS基座大模型、端侧模型、多语种、RTC流式语音、语音识别、模型服务与推理、大规模语音IP定制服务等。业务支撑面向高德全部核心场景，包括语音导航、AI领航员、IP语音定制、国际化、AI语音助手、智能外呼、内容生成等。团队定位是通过前沿语音技术的研究和落地，赋能下一代AI产品创新。近期部分技术（https://arxiv.org/abs/2507.12197）和产品进展介绍（https://mp.weixin.qq.com/s/A3TWtfwlqGdkC6oNHrkFaw ）工作职责 1、参与输出语音技术（TTS、ASR、语音表征学习、端到端模型）的长期技术路线规划，推动团队在生成式语音大模型、多模态语音交互等领域的技术突破； 2、研究TTS大模型、端到端语音模型的前沿方向，探索语音与文本、视觉的跨模态融合，探索出行场景语音Agent的创新方向； 3、技术落地与产品化：将研究成果转化为高价值产品，解决复杂场景（如低资源语言、多语种、实时性要求高的工业级应用）； 4、学术与产业影响力：发表顶会论文（如ICASSP、INTERSPEECH、NeurIPS、ICML）、申请核心专利，提升公司技术话语权。

更新于 2025-09-16北京

千问C端事业群-语音合成算法专家-杭州/上海

社招3年以上技术类-算法

1、负责大模型TTS和大模型音频生成技术构建。为语音助手超级智能体提供音频技术支持，包括但不限于TTS、端到端语音大模型、音频AIGC等； 2、负责关键场景的语音交互大模型算法优化，构建高质量低延迟的TTS和音频生成系统，提升业务效果； 3、跟进业界前沿的语音生成大模型技术，如语音端到端大模型和全模态模型等，提升语音助手场景的智能化并落地产品。

更新于 2026-02-02杭州|上海