logo of netease

网易大模型算法工程师(TTS & AI音乐方向)

社招全职3-5年网易云音乐地点:杭州状态:招聘

任职要求


1、计算机、人工智能、电子工程、信号处理或相关领域硕士及以上学历;
2、扎实的机器学习/深度学习基础,熟悉 Transformer、Diffusion、GAN、Flow Matching 等主流生成模型;
3、精通 Python,熟练掌握 PyTorch/TensorFlow 等主流深度学习框架;
4、熟悉音频处理基础,如 STFT、Mel 频谱、f0 提取、音频编码、声码器(Vocoder)等;
5、具备 TTS、VC、SVS、音频生成或语音模型相关的项目经验;
6、具备大规模分布式训练经验,包括数据并行、模型并行、流水线并行等;
7、良好的问题分析与解决能力,拥有优秀的沟通能力与团队合作精神。

【优先条件】
1、有音乐基础、具备音…
登录查看完整任职要求
微信扫码,1秒登录

工作职责


1、负责将声学知识(人声和音乐)应用于文本到语音(TTS)与文本到音乐生成场景,从应用链路的各个环节提升声音质量,包括语音自然度、情绪表达、音色一致性,以及音乐的旋律优美度、节奏准确性等,以满足实际场景需求;
2、深入理解音乐结构(旋律、和声、节奏、情绪)与音频信号处理,将音乐理解相关特征引入 TTS/SVS 模型,提高音乐性、可控性与生成质量;
3、参与歌声合成(SVS)和声音克隆(VC)相关模型的研发与调优,包括音高曲线控制、韵律建模、音色迁移、多风格歌唱生成等;
4、跟进行业前沿的 TTS、歌声合成、音频生成模型技术(如 Diffusion、Flow Matching、GAN、Neural Codec、音频 LLM 等),并将其有效应用于实际业务场景;
5、构建与维护大规模音频与语音训练数据集,设计高效的数据清洗、标注、增强、去噪与特征提取流程;
6、分析与解决应用中的关键问题,如音质退化、发音错误、韵律异常、音色偏移等,并持续优化模型性能;
7、与音乐制作、产品、内容团队协作,推动模型在 AI 音乐创作、AI 歌手、AI 语音助手、语音互动等场景的落地,并根据反馈持续迭代。
包括英文材料
学历+
机器学习+
深度学习+
Transformer+
Python+
PyTorch+
TensorFlow+
还有更多 •••
相关职位

logo of yuewen
社招3年以上技术

1. 负责TTS语音大模型(GPT-SoVITS、fishspeech、chattts)的技术研发及落地; 2. 探索语音模型前沿进展,结合网文业务探索TTS落地场景; 3. 较强的工程实践能力,构建语音合成底层推理架构,包括推理加速、合成效率等; 4. TTS及声音复刻场景下情感、音色、韵律等维度的技术研究; 5. 构建TTS音色库及相关语音合成平台;

更新于 2025-02-24上海
logo of netease
社招网易有道

1. 参与语音生成类大模型技术的研发,比如语音合成、音乐生成、端到端语音对话等; 2. 改进和优化语音大模型基座,持续创新和迭代算法解决业务问题; 3. 调研并探索语音方向前沿算法,不断提升现有算法的推理效率与合成质量。

更新于 2025-12-21北京
logo of tongyi
社招1年以上技术类-算法

通义千问(Qwen)是由通义实验室自主研发的超大规模语言模型,具备跨语言、跨任务的理解与生成能力。Qwen系列模型,涵盖参数量从几百 M 到 T 级的基座大语言模型,并相继推出Qwen-VL、Qwen-Audio、Qwen-Omni、Qwen-Coder等系列模型。从多轮对话到代码生成,从逻辑推理到内容创作,从单一多模态到全模态统一理解生成,Qwen 正在打造全球领先的全模态模型技术体系,推动AI在企业服务、开发者生态、个人用户等领域的深度应用,引领下一代人工智能的发展。 团队致力于追逐实现 Omni 基座模型,实现多模态理解与多模态生成一体化。在此之中,语音理解与语音生成是极其重要的技术,影响着下一代 AI 的交互形式,同时通过生成语音甚至创造音乐等方式改变人类的生活与工作。团队音频组负责围绕 Qwen 基座模型展开音频处理以及与音频交互相关的基础研究及其应用,代表工作有 Qwen2.5-Omni, Qwen2-Audio, Qwen-Audio。音频组招收理解以及生成方向研究员,包括但不限于 ASR, TTS, S2TT,TTS, Zero-Shot TTS, Music/Song Generation, 同时也欢迎擅长音频交互的工程师,负责基座模型的开源与落地应用,支持开发实时交互系统。 工作职责: 1. 单人/多说话人语音识别。 2. 语音合成与高质量音频合成。 3. 音频前端与音色转换。 4. 音色克隆(Zero-Shot TTS)。 5. 音乐生成 / 歌声生成。 6. 理解指令遵循能力提升与推理,包括 SFT, GRPO 等。 7. 流式音频交互模型的推理与加速 (熟悉RTC/WebSocket等)。

更新于 2025-12-25北京|杭州
logo of tongyi
校招通义2026届秋

通义千问(Qwen)是由通义实验室自主研发的超大规模语言模型,具备跨语言、跨任务的理解与生成能力。Qwen系列模型,涵盖参数量从几百 M 到 T 级的基座大语言模型,并相继推出Qwen-VL、Qwen-Audio、Qwen-Omni、Qwen-Coder等系列模型。从多轮对话到代码生成,从逻辑推理到内容创作,从单一多模态到全模态统一理解生成,Qwen 正在打造全球领先的全模态模型技术体系,推动AI在企业服务、开发者生态、个人用户等领域的深度应用,引领下一代人工智能的发展。 团队致力于追逐实现 Omni 基座模型,实现多模态理解与多模态生成一体化。在此之中,语音理解与语音生成是极其重要的技术,影响着下一代 AI 的交互形式,同时通过生成语音甚至创造音乐等方式改变人类的生活与工作。团队音频组负责围绕 Qwen 基座模型展开音频处理以及与音频交互相关的基础研究及其应用,代表工作有 Qwen2.5-Omni, Qwen2-Audio, Qwen-Audio。音频组招收理解以及生成方向研究员,包括但不限于 ASR, TTS, S2TT,TTS, Zero-Shot TTS, Music/Song Generation, 同时也欢迎擅长音频交互的工程师,负责基座模型的开源与落地应用,支持开发实时交互系统。 工作职责: 1. 单人/多说话人语音识别。 2. 语音合成与高质量音频合成。 3. 音频前端与音色转换。 4. 音色克隆(Zero-Shot TTS)。 5. 音乐生成 / 歌声生成。 6. 理解指令遵循能力提升与推理,包括 SFT, GRPO 等。 7. 流式音频交互模型的推理与加速 (熟悉RTC/WebSocket等)。

更新于 2025-08-07北京|杭州|上海