logo of tencent

腾讯混元语音与音频理解方向研究员(语音生成方向)(北京/深圳/上海)

社招全职2年以上混元助手-其他技术地点:北京状态:招聘

任职要求


1.计算机科学、人工智能、电子工程、信号处理等相关专业硕士、博士研究生;
2.掌握语音大模型语音合成语音识别、音频生成、语音转换、语音Codec等一项或多项研究和开发经验;
3.熟悉主流对话大模型(如GPT4o、GLM-4-Voice、Qwen2.5-Omni、Voila等),有相关项目实践经验者优先;
4.熟练掌握PyTorch深度学习框架,有大模型训练框架Megatron/Deepspeed实践经验者优先;
5.熟悉大模型相关结构设计及原理,有大规模预训练、后训练经验者优先。

工作职责


1.跟踪业界最新的语音生成算法研究,探索下一代语音、音频生成新范式,拓展语音生成边界能力;
2.探索多模态语音大模型的前沿技术,结合文本、语音、视觉等技术提升语音交互体验;
3.负责语音大模型的技术研发工作,推动模型性能提升与创新应用。
包括英文材料
大模型+
语音识别+
PyTorch+
深度学习+
Megatron+
DeepSpeed+
语音合成+
语音识别+
相关职位

logo of tencent
社招TEG技术

1.负责大模型语音模态的设计、开发和优化,包括但不限于语音/音频数据清洗、模型设计、训练策略等方面的研究与应用; 2.参与语音识别、语音合成、声音克隆等相关大模型语音模态能力的建设,提高跨模态整体效果。

更新于 2025-06-10
logo of tencent
社招TEG技术

1.多模态驱动引擎开发,通过对文本/语音/视觉等信息,构建虚拟人表情、动作的驱动大模型; 2.设计多模态条件生成框架,实现语音、表情、镜头、肢体动作的联合优化; 3.开发多模态特征同步技术:语音-表情时序对齐、文本语义-镜头运动关联建模。

更新于 2025-05-30
logo of tencent
社招3年以上TEG产品

1.通过对广泛业务中用户行为和反馈的研究,确定自研LLM的改进空间、优先级,以及相应的改进手段; 2.与业务团队合作,将混元模型能力整合到产品及服务中; 3.对齐数据采集和生产的方法,确保数据质量保持在高标准,并根据定量和定性反馈不断改进流程,有一到两个行业的专有数据经验优先。

更新于 2025-06-20
logo of tencent
社招3年以上AI技术

1.负责TTS、ASR、声学前处理、自然语言处理、多模态大模型等AI系统的工程开发(包括训练工具和推理引擎的开发、优化、交付等); 2.负责AI系统最新算法的集成、工程化、实际场景效果验证、优化、上线; 3.负责AI相关业务、产品的工程支持,在效果和性能上更好的落地。

更新于 2025-09-12