字节跳动音频理解编辑-CQC
任职要求
1、本科及以上学历,音乐制作/作曲专业,具备视唱练耳能力;
2、具备良好的英语…工作职责
1、结合自身音乐制作能力,完成音频理解标注任务及效果评测,协助训练音频理解模型,包括但不限于:听辨记谱,编曲分析,音乐评论等; 2、深入了解音乐制作逻辑,基于业务需求,推动音频理解模型的优化与落地; 3、及时反馈音频理解标注中所发现的问题,整理和维护音频理解模型训练数据; 4、配合团队完成需求评测/想法验证机动测评任务。
音视频生成大模型评测体系建设与演进及业务保障,负责包括但不限于视频生成大模型中音频生成模块(Audio Gen)及音视频一体化的算法效果。不仅是评测的执行者,更是评测体系的架构师,通过深度的算法归因分析,驱动音频 VAE等核心组件的算法优化和迭代。 1、音视频一体化评测体系建设: 1)音频生成与音频理解相关算法、评测方法及评测指标体系具有深入理解,熟悉常见视频与音频质量评估方法,能够结合业务场景设计合理的评测方案; 2)建立从底层算子(VAE, Latent Space)到上层生成效果的全链路评测标准; 3)定义并量化音画同步性、语义关联度、音频美学表现力等关键维度; 2、Benchmark 与方法论沉淀: 1)构建具有行业领先水平的音频生成 Benchmark,涵盖音乐、环境音、音效(SFX)及人声等; 2)沉淀主客观结合的评测方法论,包括客观指标(FAD、KL Divergence、IS、CLAP Score)与专家级主观评价量表(MOS, MUSHRA); 3、深度诊断与归因分析:输出专业评测报告,深度分析,定位模型缺陷,如针对音频 VAE 压缩失真、音频扩散模型频谱缺失、相位扭曲等问题进行深度诊断,并给出改进建议; 4、前瞻性调研与实验:持续跟踪 AIGC 领域(如 ElevenLabs、Suno、Stable Audio等)前沿技术动态,将行业最新的模型能力和技术路线转化为可落地的评测方案; 5、评测工具与平台化驱动:参与或主导自动化评测工具与平台的开发,利用技术手段提升大规模音视频数据的评测效率,探索基于大模型的自监督评测(LLM-as-a-judge)等创新手段。
团队介绍:Data语音团队致力于语音/音频/音乐相关的AI核心技术研发和产品创新。部门支撑音频和多模态内容从生产、编辑到消费的全流程,赋能内容创作和互动,并以中台形式支持集团多个业务,提供业界前沿的技术能力与解决方案。 1、支持语音交互技术在字节跳动公司内外丰富的业务场景落地,解决落地过程中的前沿问题,聚焦智能硬件AI交互中的的音频理解处理技术方案的迭代与创新,专注端侧智能交互的前沿技术和算法效果; 2、追求和探索业界最前沿算法,结合LLM与音频处理,实现音频内容创作和消费业务场景的智能音频理解和处理算法研发和业务支持; 3、跟踪智能音频领域的最新技术进展并升级团队自研的各算法系统,包括回声消除、AI降噪、多通道音频理解及处理; 4、跟踪研发业界先进的音频进展,统计模型/机器学习/深度学习技术在语音/音频领域研发并落地产品。

1. 负责音乐生成大模型算法研发,攻克文本生成音乐、音乐编辑、音色克隆等核心技术; 2. 研发音乐理解大模型,搭建高精度、细粒度音乐内容描述体系; 3. 搭建完善的音乐训练数据集,支撑模型迭代优化; 4. 落地音乐生成大模型至核心业务,保障技术实用化; 5. 跟进行业前沿,维持团队音乐生成技术领先性。
ByteIntern:面向2026届毕业生(2025年9月-2026年8月期间毕业),为符合岗位要求的同学提供转正机会。 团队介绍:Data语音团队致力于语音/音频/音乐相关的AI核心技术研发和产品创新。部门支撑音频和多模态内容从生产、编辑到消费的全流程,赋能内容创作和互动,并以中台形式支持集团多个业务,提供业界前沿的技术能力与解决方案。 1、支持端到端语音交互技术在业务场景落地,探索语音端到端的业务应用前沿问题; 2、支持语音识别技术在字节跳动公司内外丰富的业务场景落地,解决落地过程中的前沿问题,持续优化语音识别核心技术效果; 3、搭建音频理解核心技术体系,专注音频理解的前沿技术和算法效果,追求和探索业界最前沿算法。