万兴科技AI音频评测工程师
任职要求
必备条件 1、1年以上音乐制作/音效设计经验,熟悉AI音频工具(Suno/ElevenLabs/ MusicFX) 2、能拆解音乐风格特征(流行/电子等)并转化为模型控制参数 3、具备基础音频分析能力(如频谱/波形诊断) …
工作职责
1. 参与语音/音乐/音效生成模型效果的效果评估标准建立(如语音自然度、清晰度、情绪表达); 2. 标注效果评测过程的音频错误(口音偏移、节奏突变、情绪不到位、语音断裂等); 3. 设计与执行主观打分测试(MOS)、音频AB测试、风格对比测试; 4. 管理评估音频测试集,保证语种、风格、情绪维度覆盖全面; 5. 协助产品和算法团队优化音频生成偏好/异常反馈链路。
在这里,你可以接触音频行业前沿技术、第一时间了解世界尖端音频设备仪器,学习与参与国家和国际音频标准的制定,有机会与行业内顶尖专家一起工作,共同探索手机音频技术。具体工作内容包括: 1.负责产品的声学特性分析,制定音频主客观评测标准,指引效果调试优化方向,对音频效果目标达成负责; 2.参与构建标准化声学测试环境,建立行业领先的音频评测体系,持续提升音频评测技术能力; 3.参与构建音频自动化评测平台; 4.负责用户调研,构建用户大数据模型,输出用户体验报告; 5.分析行业竞品音频特色和优势,并跟进落实音频效果改善,洞察声学产品的发展趋势。
音视频生成大模型评测体系建设与演进及业务保障,负责包括但不限于视频生成大模型中音频生成模块(Audio Gen)及音视频一体化的算法效果。不仅是评测的执行者,更是评测体系的架构师,通过深度的算法归因分析,驱动音频 VAE等核心组件的算法优化和迭代。 1、音视频一体化评测体系建设: 1)音频生成与音频理解相关算法、评测方法及评测指标体系具有深入理解,熟悉常见视频与音频质量评估方法,能够结合业务场景设计合理的评测方案; 2)建立从底层算子(VAE, Latent Space)到上层生成效果的全链路评测标准; 3)定义并量化音画同步性、语义关联度、音频美学表现力等关键维度; 2、Benchmark 与方法论沉淀: 1)构建具有行业领先水平的音频生成 Benchmark,涵盖音乐、环境音、音效(SFX)及人声等; 2)沉淀主客观结合的评测方法论,包括客观指标(FAD、KL Divergence、IS、CLAP Score)与专家级主观评价量表(MOS, MUSHRA); 3、深度诊断与归因分析:输出专业评测报告,深度分析,定位模型缺陷,如针对音频 VAE 压缩失真、音频扩散模型频谱缺失、相位扭曲等问题进行深度诊断,并给出改进建议; 4、前瞻性调研与实验:持续跟踪 AIGC 领域(如 ElevenLabs、Suno、Stable Audio等)前沿技术动态,将行业最新的模型能力和技术路线转化为可落地的评测方案; 5、评测工具与平台化驱动:参与或主导自动化评测工具与平台的开发,利用技术手段提升大规模音视频数据的评测效率,探索基于大模型的自监督评测(LLM-as-a-judge)等创新手段。
团队介绍:语音团队致力于语音、音频、音乐等大模型AIGC技术的研发和产品创新,我们的使命是通过多模态AIGC音频技术赋能内容创作与语音交互,让内容生产、消费与互动变得简单、沉浸、多元化。当前团队已有成熟的语音生成、声音克隆、音频理解与处理、音乐理解和生成等领域的技术,一方面以中台形式服务于公司众多业务线,另一方面,通过火山引擎开放平台-AI中台-音频技术、商用音乐平台-易颂等,向众多企业开放技术成熟稳定的能力和服务。 1、负责字节跳动语音相关产品的TTS、ASR、多模态交互模型等场景的效果评估,站在用户视角构建端到端的算法效果评测体系; 2、深入业务结合业务需求痛点,设计完备的算法效果质量保障、评测方案;构建合理且置信的标准化评测体系,解决业务评测效率和效果问题; 3、推动通用人工智能评测方案的升级迭代,逐步推广至公司内的商业化平台。
