滴滴语音生成大模型算法工程师（TTS）(J251127015)

社招全职2-5年技术2026-07-21地点：北京状态：招聘

扫码手机上打开

任职要求

1、 专业背景：计算机/语音算法/AI 等相关专业硕士及以上，毕业年限2-5年最佳；
2、熟悉常见TTS框架（如：CoSyVoice、F5、 index-tts 、 Qwen3-tts、 VoxCPM、 DiTAR） 具备模型改动、调优经验；
3、熟悉常见音频表征技术、包含encod…

登录查看完整任职要求

微信扫码，1秒登录

工作职责

1、负责团队自研语音生成基模的预训练 & 后训练；
2、优化基模zero-shot、多语种、长文本长上下文稳定性；
3、持续提升团队内部voice-desgin & voice-style-control & voice-remix等技术上线等。

📮 投递简历 ✨AI模拟面试

难度：

包括英文材料

语音合成+

BERT+

GPT+

还有更多 •••

登录查看完整学习资料

相关职位

AI算法工程师（大语言模型/图形学/语音生成方向）

校招程序技术类

负责游戏研发/运营过程中的相关研发与应用工作；跟踪领域前沿技术，提升技术上限、落地游戏领域相关业务，包括： ①语音生成方向：负责语音生成相关算法能力研发和优化，包括但不限于高表现力语音合成、音色转换、生成模型等； ②图形学方向：负责多模态内容自动生成的研发与应用工作，包括但不限于2D/3D/动画的生成与处理；针对多模态内容生成的研发与应用，构建相关数据及所需工具，并搭建工作流程； ③大语言模型方向：负责游戏研发/运营过程中大语言模型研发与应用工作，包括但不限于基于LLM对游戏研发流程进行优化及对玩法进行创新；针对LLM的研发与应用，构建相关数据及所需工具，并搭建工作流程；

上海

通义实验室-语音合成与音频生成大模型算法专家-通义百聆

社招3年以上技术类-算法

1.参与前沿语音生成大模型的研发，涵盖数据体系设计、模型架构设计、训练优化等。 2.探索语音合成、声学建模、自然语言处理等多模态融合技术，提升模型在语音质量、自然度及逻辑推理能力上的表现。 3.针对实际应用场景（音色克隆、情感控制等）优化模型效果和性能，解决复杂技术难题。

更新于 2026-04-02北京|杭州

通义实验室-语音合成与音频生成大模型算法专家-通义百聆

社招3年以上技术类-算法

更新于 2026-04-02北京|杭州

研究型实习生-业务技术-语音生成与交互算法实习生

实习阿里巴巴研究型实

面向淘宝直播数字人场景，研究探索语音大模型等前沿技术，提升技术影响力： 1. 负责语音大模型等前沿算法研究，包括语音对话系统、语音理解与生成、语音强化学习等方向，参与架构设计、训练调优及迭代工作； 2. 负责端到端语音交互模型的前沿探索，优化数字人全双工语音交互架构，包括智能打断、上下文感知、情感交互理解、流式输入输出等，解决级联模型等语义割裂与延迟问题； 3. 负责高表现力语音合成算法探索，参与数字人TTS系统研发，包括多情感、高表现力的电商直播感染力语音建模，实现语音、重音、情感的动态可控； 4. 参与团队合作，与团队一起解决技术难题，推动技术落地，产出高质量学术论文和专利。

更新于 2026-03-20北京|杭州