logo of tongyi

通义通义实验室-语音合成与音频生成大模型算法专家-通义百聆

社招全职3年以上技术类-算法地点:北京 | 杭州状态:招聘

任职要求


1.计算机科学、人工智能、电子工程、应用数学等相关专业硕士及以上学历。
2.具备扎实的机器学习深度学习理论基础,精通语音生成相关技术。
3.熟练至少一种大模型训练框架(Deepspeed, Megatron),有大模型训练经验。
4.…
登录查看完整任职要求
微信扫码,1秒登录

工作职责


1.参与前沿语音生成大模型的研发,涵盖数据体系设计、模型架构设计、训练优化等。
2.探索语音合成、声学建模、自然语言处理等多模态融合技术,提升模型在语音质量、自然度及逻辑推理能力上的表现。
3.针对实际应用场景(音色克隆、情感控制等)优化模型效果和性能,解决复杂技术难题。
包括英文材料
学历+
机器学习+
深度学习+
大模型+
DeepSpeed+
还有更多 •••
相关职位

logo of tongyi
社招3年以上技术类-算法

1. 负责语音合成、语音识别、端到端语音交互大模型算法的基础研究和应用落地。 2. 参与语音合成与识别技术在业务场景落地,解决落地过程中的前沿问题,持续优化语音合成与识别核心技术效果。 3. 深入调研和关注音频/NLP/多模态/全模态等方向的前沿技术,持续探索语音技术的新能力和新应用。

更新于 2025-11-26北京|杭州
logo of tongyi
社招3年以上技术类-算法

团队介绍 通义千问(Qwen)是由通义实验室自主研发的超大规模语言模型,具备跨语言、跨任务的理解与生成能力。Qwen系列模型,涵盖参数量从几百 M 到 T 级的基座大语言模型,并相继推出Qwen-VL、Qwen-Audio、Qwen-Omni、Qwen-Coder等系列模型。从多轮对话到代码生成,从逻辑推理到内容创作,从单一多模态到全模态统一理解生成,Qwen 正在打造全球领先的全模态模型技术体系,推动AI在企业服务、开发者生态、个人用户等领域的深度应用,引领下一代人工智能的发展。 团队致力于追逐实现 Omni 基座模型,实现多模态理解与多模态生成一体化。在此之中,语音理解与语音生成是极其重要的技术,影响着下一代 AI 的交互形式,同时通过生成语音甚至创造音乐等方式改变人类的生活与工作。团队音频组负责围绕 Qwen 基座模型展开音频处理以及与音频交互相关的基础研究及其应用,代表工作有 Qwen2.5-Omni, Qwen2-Audio, Qwen-Audio。音频组招收理解以及生成方向研究员,包括但不限于 ASR, TTS, S2TT,TTS, Zero-Shot TTS, Music/Song Generation, 同时也欢迎擅长音频交互的工程师,负责基座模型的开源与落地应用,支持开发实时交互系统。 职位描述: 参与Qwen3-Music项目研究以及开源,构建世界级的影响力项目。 团队致力于打造全球最具影响力的音频模型,曾先后推出Qwen-Audio, Qwen-Omni, Qwen-TTS, Qwen-ASR等系列模型。

更新于 2025-12-04北京|杭州
logo of quark
社招2年以上技术类-算法

1. 负责语音合成、语音识别、端到端语音交互大模型算法的基础研究和应用落地; 2. 参与语音合成与识别技术在业务场景落地,解决落地过程中的前沿问题,持续优化语音合成与识别核心技术效果; 3. 深入调研和关注音频/NLP/多模态/全模态等方向的前沿技术,持续探索语音技术的新能力和新应用。

更新于 2025-09-19北京|杭州
logo of bytedance
社招2年以上A66485

1、负责面向音视频创作场景的 音频理解、语音合成和音频处理相关AI解决方案的设计和优化,保证解决方案的领先性; 2、深入理解业务场景、市场动态和大模型技术趋势,参与规划产品演进思路; 3、联动算法/工程/数据专家等上下游合作,推进解决方案高效上线。

更新于 2025-03-24上海