腾讯混元语音与音频理解方向研究员（语音生成方向）（北京/深圳/上海）

社招全职2年以上混元助手-其他技术2025-11-17地点：北京状态：招聘

扫码手机上打开

任职要求

1.计算机科学、人工智能、电子工程、信号处理等相关专业硕士、博士研究生；
2.掌握语音大模型、语音合成、语音识别、音频生成、语音转换、语音Codec等一项或多项研究和开发经验；
3.熟悉主流对话大模型（如GPT4o、GLM-4-Voice、Qw…

登录查看完整任职要求

微信扫码，1秒登录

工作职责

1.跟踪业界最新的语音生成算法研究，探索下一代语音、音频生成新范式，拓展语音生成边界能力；
2.探索多模态语音大模型的前沿技术，结合文本、语音、视觉等技术提升语音交互体验；
3.负责语音大模型的技术研发工作，推动模型性能提升与创新应用。

📮 投递简历 ✨AI模拟面试

难度：

包括英文材料

大模型+

语音识别+

PyTorch+

深度学习+

还有更多 •••

登录查看完整学习资料

相关职位

混元大模型语音算法工程师/专家

社招TEG技术

1.负责大模型语音模态的设计、开发和优化，包括但不限于语音/音频数据清洗、模型设计、训练策略等方面的研究与应用； 2.参与语音识别、语音合成、声音克隆等相关大模型语音模态能力的建设，提高跨模态整体效果。

更新于 2025-06-10北京

混元大模型语音算法工程师（北京/上海）

社招3年以上AI技术

1.负责语音/音频大模型研发，包括语音对话（语音交互/音视频对话）、音频理解（ASR/音频caption）、音频生成（TTS/视频配音）等模型研发； 2.负责语音/音频大模型的预训练、后训练、强化学习（文本和音频强化）相关的数据和算法工作； 3.负责语音对话/音频理解/音频生成的模型开源以及产品落地（比如语音对话产品全链路端到端优化、音频理解在噪音/口音/远场/音效音乐场景的优化、语音合成在播报/闲聊/游戏/社交等场景的优化）。

更新于 2025-12-12深圳

混元多模态算法应用工程师

社招TEG技术

1.多模态驱动引擎开发,通过对文本/语音/视觉等信息，构建虚拟人表情、动作的驱动大模型； 2.设计多模态条件生成框架，实现语音、表情、镜头、肢体动作的联合优化； 3.开发多模态特征同步技术：语音-表情时序对齐、文本语义-镜头运动关联建模。

更新于 2025-05-30深圳

混元大模型交互算法工程师（北京/上海）

社招3年以上AI技术

1.负责大语言模型在人机语音交互、音视频对话能力上的算法设计优化； 2.调研业界前沿算法，追踪最前沿的技术动态，并应用在相关的项目中； 3.参与产品讨论，基于技术对产品提出改进建议。

更新于 2025-11-11深圳