logo of tencent

腾讯混元语音与音频理解方向研究员(语音生成方向)(北京/深圳/上海)

社招全职2年以上混元助手-其他技术地点:北京状态:招聘

任职要求


1.计算机科学、人工智能、电子工程、信号处理等相关专业硕士、博士研究生;
2.掌握语音大模型、语音合成、语音识别、音频生成、语音转换、语音Codec等一项或多项研究和开发经验;
3.熟悉主流对话大模型(如GPT4o、GLM-4-Voice、Qw…
登录查看完整任职要求
微信扫码,1秒登录

工作职责


1.跟踪业界最新的语音生成算法研究,探索下一代语音、音频生成新范式,拓展语音生成边界能力;
2.探索多模态语音大模型的前沿技术,结合文本、语音、视觉等技术提升语音交互体验;
3.负责语音大模型的技术研发工作,推动模型性能提升与创新应用。
包括英文材料
大模型+
语音识别+
PyTorch+
深度学习+
还有更多 •••
相关职位

logo of tencent
社招TEG技术

1.负责大模型语音模态的设计、开发和优化,包括但不限于语音/音频数据清洗、模型设计、训练策略等方面的研究与应用; 2.参与语音识别、语音合成、声音克隆等相关大模型语音模态能力的建设,提高跨模态整体效果。

更新于 2025-06-10北京
logo of tencent
社招TEG技术

1.多模态驱动引擎开发,通过对文本/语音/视觉等信息,构建虚拟人表情、动作的驱动大模型; 2.设计多模态条件生成框架,实现语音、表情、镜头、肢体动作的联合优化; 3.开发多模态特征同步技术:语音-表情时序对齐、文本语义-镜头运动关联建模。

更新于 2025-05-30深圳
logo of tencent
社招3年以上AI技术

1.负责大语言模型在人机语音交互、音视频对话能力上的算法设计优化; 2.调研业界前沿算法,追踪最前沿的技术动态,并应用在相关的项目中; 3.参与产品讨论,基于技术对产品提出改进建议。

更新于 2025-11-11深圳
logo of tencent
社招3年以上TEG产品

1.通过对广泛业务中用户行为和反馈的研究,确定自研LLM的改进空间、优先级,以及相应的改进手段; 2.与业务团队合作,将混元模型能力整合到产品及服务中; 3.对齐数据采集和生产的方法,确保数据质量保持在高标准,并根据定量和定性反馈不断改进流程,有一到两个行业的专有数据经验优先。

更新于 2025-06-20深圳