logo of tencent

腾讯混元大模型语音算法工程师(北京/上海)

社招全职3年以上AI技术地点:深圳状态:招聘

任职要求


1.有语音对话、语音合成语音识别、音视频多模态、大语言模型(预训练、微调、强化学习)等相关经验者优先;
2.优秀的代码能力、数据结构算法功底,熟练掌握PythonC/C++,熟悉Pytorch/Megatron/DeepSpeed等模型训练框架,有ACM/ICPC、NOI/IOI、Top Coder、K…
登录查看完整任职要求
微信扫码,1秒登录

工作职责


1.负责语音/音频大模型研发,包括语音对话(语音交互/音视频对话)、音频理解(ASR/音频caption)、音频生成(TTS/视频配音)等模型研发;
2.负责语音/音频大模型的预训练、后训练、强化学习(文本和音频强化)相关的数据和算法工作;
3.负责语音对话/音频理解/音频生成的模型开源以及产品落地(比如语音对话产品全链路端到端优化、音频理解在噪音/口音/远场/音效音乐场景的优化、语音合成在播报/闲聊/游戏/社交等场景的优化)。
包括英文材料
语音合成+
语音识别+
强化学习+
数据结构+
算法+
Python+
C+
C+++
PyTorch+
还有更多 •••
相关职位

logo of tencent
社招3年以上AI技术

1.负责大语言模型在人机语音交互、音视频对话能力上的算法设计优化; 2.调研业界前沿算法,追踪最前沿的技术动态,并应用在相关的项目中; 3.参与产品讨论,基于技术对产品提出改进建议。

更新于 2025-11-11深圳
logo of tencent
社招TEG技术

1.负责大模型语音模态的设计、开发和优化,包括但不限于语音/音频数据清洗、模型设计、训练策略等方面的研究与应用; 2.参与语音识别、语音合成、声音克隆等相关大模型语音模态能力的建设,提高跨模态整体效果。

更新于 2025-06-10北京
logo of tencent
社招TEG技术

1.多模态驱动引擎开发,通过对文本/语音/视觉等信息,构建虚拟人表情、动作的驱动大模型; 2.设计多模态条件生成框架,实现语音、表情、镜头、肢体动作的联合优化; 3.开发多模态特征同步技术:语音-表情时序对齐、文本语义-镜头运动关联建模。

更新于 2025-05-30深圳
logo of tencent
社招2年以上混元助手-其他技

1.跟踪业界最新的语音生成算法研究,探索下一代语音、音频生成新范式,拓展语音生成边界能力; 2.探索多模态语音大模型的前沿技术,结合文本、语音、视觉等技术提升语音交互体验; 3.负责语音大模型的技术研发工作,推动模型性能提升与创新应用。

更新于 2025-11-17北京