网易大模型算法工程师(TTS & AI音乐方向)
任职要求
1、计算机、人工智能、电子工程、信号处理或相关领域硕士及以上学历; 2、扎实的机器学习/深度学习基础,熟悉 Transformer、Diffusion、GAN、Flow Matching 等主流生成模型; 3、精通 Python,熟练掌握 PyTorch/TensorFlow 等主流深度学习框架; 4、熟悉音频处理基础,如 STFT、Mel 频谱、f0 提取、音频编码、声码器(Vocoder)等; 5、具备 TTS、VC、SVS、音频生成或语音模型相关的项目经验; 6、具备大规模分布式训练经验,包括数据并行、模型并行、流水线并行等; 7、良好的问题分析与解决能力,拥有优秀的沟通能力与团队合作精神。 【优先条件】 1、有音乐基础、具备音…
工作职责
1、负责将声学知识(人声和音乐)应用于文本到语音(TTS)与文本到音乐生成场景,从应用链路的各个环节提升声音质量,包括语音自然度、情绪表达、音色一致性,以及音乐的旋律优美度、节奏准确性等,以满足实际场景需求; 2、深入理解音乐结构(旋律、和声、节奏、情绪)与音频信号处理,将音乐理解相关特征引入 TTS/SVS 模型,提高音乐性、可控性与生成质量; 3、参与歌声合成(SVS)和声音克隆(VC)相关模型的研发与调优,包括音高曲线控制、韵律建模、音色迁移、多风格歌唱生成等; 4、跟进行业前沿的 TTS、歌声合成、音频生成模型技术(如 Diffusion、Flow Matching、GAN、Neural Codec、音频 LLM 等),并将其有效应用于实际业务场景; 5、构建与维护大规模音频与语音训练数据集,设计高效的数据清洗、标注、增强、去噪与特征提取流程; 6、分析与解决应用中的关键问题,如音质退化、发音错误、韵律异常、音色偏移等,并持续优化模型性能; 7、与音乐制作、产品、内容团队协作,推动模型在 AI 音乐创作、AI 歌手、AI 语音助手、语音互动等场景的落地,并根据反馈持续迭代。
在算力驱动的 AGI 和人文精神的烟火气交汇之处,我们真诚邀请对大模型 Omni Model 有热情的同学加入,共同打造更具影响力的智能系统。你会成为团队的一员,并和其他同事协作,共同研发 SOTA 的 Omni Model。期待你以务实和客观的科学态度来推进技术的进展,不被过往经验裹挟、不被主观偏好影响。期待你除了算法外仍然是为出色的工程师。期待你对技术有强烈的好奇心和开放心态。 区别于传统 ASR / TTS 级联技术,我们希望打造端到端的 Omni Model 在实时交互中释放大模型的智力水平,彻底改变以 Chatbot 文字为主的人机交互界面 岗位说明:你会负责围绕大模型 Omni Model 构建语音模态的相关研究工作,包括但不限于如下事项 海量的语音数据处理和构建:定性分析、定量评估数据质量,并给出 scalable 的改进方案;探索跨模态(文字/视觉/语音)混合训练的最佳实践; 探索更加高效且合理的模型架构,让模型更加理解音频,同时让模型具备更好的语音合成能力 研究并探索基于 Omni Model 的 Post Train,包含但不限于 SFT 和 RL
岗位职责: 该职位通过大模型训练、Agent、RAG、N2SQL、NLP、语音处理等技术创新和突破,构建Agent通用平台、大模型训练平台等工具产品,同时支持对话机器人等垂直应用及智能产品的建设。欢迎敢于接受挑战的候选人加入我们,一起赋能企业客户。我们的研究方向包括但不限于: 1、通用大模型、推理大模型预训练、微调、强化对齐等技术的持续研究创新; 2、多语言大模型、领域大模型的训练技术研究与落地; 3、AI数据清洗、加工、合成、自动标注技术研究与落地; 4、文本机器人、语音机器人、质检机器人等客服域技术的研发与落地; 5、多Agent、RAG、N2SQL、自主决策等技术的研究与落地; 6、入呼大模型机器人、外呼大模型机器人研发经验;熟悉VAD, ASR, TTS等语音相关技术; 以上方向擅长其中1个即可
1、负责大语言模型微调, prompt优化,支持大语言模型相关项目 2、负责大语言模型在智能交互机器人,智能外呼,智能质检,AI Agent等业务场景上的应用研究 3、负责大语言模型的ToB场景下商业赋能,包括推理优化,私有化交付,同时结合传统小模型,协作形成技术到服务的最佳实践 4、负责大语言模型相关核心技术研发、前沿算法、开源模型与框架跟踪,根据产品需求完成技术转化,推动业务发展