百度语音合成算法实习工程师(TTS)（J85477）

实习兼职MEG2025-05-29地点：深圳状态：招聘

扫码手机上打开

任职要求

-硕士及以上学历，计算机相关专业，有语音合成相关项目经验
-熟悉Linux和python，熟练使用PyTorch等深度学习框架
-沟…

登录查看完整任职要求

微信扫码，1秒登录

工作职责

-参与研发语音合成大模型，包括但不限于模型结构优化、预训练ICL、微调SFT等工作
-跟进语音合成方向相关前沿技术进展
-参与百度海外多个产品的语音合成技术项目落地
-负责语音合成大模型推理性能优化

📮 投递简历 ✨AI模拟面试

难度：

包括英文材料

学历+

Linux+

还有更多 •••

登录查看完整学习资料

相关职位

星海计划-语音合成算法实习工程师(TTS)（J83813）

实习MEG

-负责语音合成模型及性能优化 -参与研发语音合成大模型，包括但不限于模型结构优化、预训练ICL、微调SFT等工作 -跟进语音相关前沿技术进展 -参与百度海外多个产品的语音合成技术项目落地

更新于 2025-03-31深圳

算法工程师-语音多模态（T-Star Lab日常实习生）

实习淘天集团T-St

如果你，期望在阿里巴巴亿级用户生态中，定义下一代数字人的“灵魂”与“听觉”，打造具备极致情感表现力和深度理解能力的智能语音交互系统；如果你，期望探索高表现力语音合成的前沿，突破传统韵律限制，研发支持零样本音色克隆、多情感/多方言实时切换的语音生成技术，让数字人的声音不再冷冰冰，而是拥有细腻的情绪起伏和呼吸感；如果你，期望攻克语音多模态理解的核心挑战，不再局限于单一的文本转译，而是通过语音大模型直接从原始音频中建模情感、意图、环境与语气，实现对用户深层次语义和情绪的精准捕捉；如果你，期望挑战1v1全双工实时对话的技术难题，研发低延迟的端到端语音到语音生成架构，攻克打断机制、交互反馈等难题，让数字人具备如同真人般自然、流畅的对答体验；如果你，期望深入研究多模态对齐与融合，将语音特征与视觉表情、文本语义深度绑定，构建“音-意-形”高度统一的数字人交互大脑，解决业界在复杂对话环境下理解不准、响应过慢的技术痛点。加入我们，你的算法将赋能AI智能导购、虚拟主播等核心场景。让我们一起用语音连接智能，开启数字人交互的新纪元！研究背景：目前的数字人交互大多是“对讲机”模式（用户说完 -> 系统处理 -> 系统回答），存在明显的延迟和僵硬感。要实现真正的1v1自然对话，需要数字人具备实时监听、情感对齐和即时反馈的能力。研究课题： 1、流式情感感知：研究如何在用户说话过程中，实时通过流式音频提取情绪、语气和意图，而非等待整句话结束。 2、打断（Barge-in）与反馈机制：研发鲁棒的打断检测算法，并让数字人学会自发性口语，提升交互真实感。 3、预测性生成：探索如何根据用户已说出的前半句内容，提前初始化 TTS 渲染状态，实现“边听边想边说”的流式效果。成长支持&成长空间： 1、亲手参与从 0 到 1 定义数字人实时交互标准，体验技术改变数亿人购物方式的成就感。 2、算力自由：远离“算力焦虑”，专注于算法创新。 3、海量高质数据：拥有业界独有的、极其丰富的多模态商业场景数据，为研究零样本学习、多模态对齐等前沿课题提供土壤。 4、鼓励顶会产出：团队在保持业务领先的同时，高度重视学术沉淀。鼓励将研究成果总结并发表至ICASSP、NeurIPS 等顶会，支持参加国际学术会议，提升行业影响力。

更新于 2026-01-27北京|杭州

技术研究-多媒体处理方向

实习Pre留学生实习

作为多媒体方向的研究工程师，你可以： 1、负责口语语言理解、用户意图理解、对话模型、人机对话、深度学习、深度强化学习等算法研究和开发； 2、负责语音识别/合成方向的技术研发工作，包括但不限于语音前端处理、声学模型/语言模型的建立、语言解码、语音合成(TTS)等； 3、负责针对对话交互的领域知识图谱建设和智能问答； 4、负责下一代视频编解码标准研究，负责视频编解码算法实现及优化； 5、负责语音识别/合成方向、前沿视频编码技术和前沿视频处理技术等问题的探索与研究，结合未来实际应用场景，提供全面的技术解决方案。

深圳|北京|上海

技术研究-多媒体处理方向

校招青云计划-实习生

深圳|北京|上海