哔哩哔哩语音算法工程师(TTS方向)【2027届】
任职要求
1、计算机科学、人工智能等相关领域研究经验,硕博学历为加分项; 2、有语音大模型相关前沿技术研究及发表论文经验,理解多模态/生成式模型的原理,熟悉大模型底层技术,敢于挑战技术…
工作职责
1、音频相关大模型研发,包括音频理解(语音识别/翻译等),音频生成(语音合成/音色克隆/音乐生成)等技术; 2、前沿技术跟进、学术研究及相关论文发表; 3、在B站视频理解、字幕、搜索及创作场景落地。
1、负责将声学知识(人声和音乐)应用于文本到语音(TTS)与文本到音乐生成场景,从应用链路的各个环节提升声音质量,包括语音自然度、情绪表达、音色一致性,以及音乐的旋律优美度、节奏准确性等,以满足实际场景需求; 2、深入理解音乐结构(旋律、和声、节奏、情绪)与音频信号处理,将音乐理解相关特征引入 TTS/SVS 模型,提高音乐性、可控性与生成质量; 3、参与歌声合成(SVS)和声音克隆(VC)相关模型的研发与调优,包括音高曲线控制、韵律建模、音色迁移、多风格歌唱生成等; 4、跟进行业前沿的 TTS、歌声合成、音频生成模型技术(如 Diffusion、Flow Matching、GAN、Neural Codec、音频 LLM 等),并将其有效应用于实际业务场景; 5、构建与维护大规模音频与语音训练数据集,设计高效的数据清洗、标注、增强、去噪与特征提取流程; 6、分析与解决应用中的关键问题,如音质退化、发音错误、韵律异常、音色偏移等,并持续优化模型性能; 7、与音乐制作、产品、内容团队协作,推动模型在 AI 音乐创作、AI 歌手、AI 语音助手、语音互动等场景的落地,并根据反馈持续迭代。
-参与研发语音合成大模型,包括但不限于模型结构优化、预训练ICL、微调SFT等工作 -跟进语音合成方向相关前沿技术进展 -参与百度海外多个产品的语音合成技术项目落地 -负责语音合成大模型推理性能优化
团队介绍: 高德语音技术部,是负责高德全栈语音技术的综合性团队。团队核心技术能力包括:自研TTS基座大模型、端侧模型、多语种、RTC流式语音、语音内容生成、语音识别、跨模态模型、模型服务与推理。业务支撑面向高德全部核心场景,包括语音导航、AI领航员、IP语音定制、国际化、AI语音助手、智能外呼、内容生成等。 团队定位是通过前沿语音技术的研究和落地,赋能下一代AI产品创新。近期部分技术(https://arxiv.org/abs/2507.12197)和产品进展介绍(https://mp.weixin.qq.com/s/cCeHbNW0jbC_LNVPZlGeHg) 具体职责包括但不限于: 1、语音识别、唤醒、语音与大模型融合等语音模块的研发,独立研究并完成业务落地; 2、结合高德出行导航、语音交互等业务场景,不断完善提升复杂业务场景下的语音理解能力。 3、与产品、工程架构团队一起完成技术方案的部署上线与性能优化,实现价值闭环。 4、持续追踪跟进业界前沿先进语音技术,结合业务需求开展技术创新与预研。