快手音频大模型评测工程师-【可灵AI专项】

社招全职3-5年J00122026-03-25地点：北京状态：招聘

扫码手机上打开

任职要求

1、专业功底：
1）本科及以上学历，有音频相关经验或学历：计算机、人工智能、数字媒体技术、录音工程、音乐制作、音响导演、音频编辑、音乐工程等专业优先。
2）具备同期录音、后期混音、配乐制作或SDK声学调校、音质评价等相关领域的学习背景或实践经验，对音频质量的主客观评价有一定的了解；
3）熟悉主观音质评价体系，对于各类音频的听评标准有敏感性，有金耳朵认证者优先；
4）音/视频生成领域评测方法与指标体系有系统研究或实践经验，有音频类算法评测经验优先（包括TTS、文生音频、V2A、音视频一体化模型等），对常见算法模型及生成模型原理有较好理解，熟悉机器学习模型评估方法与指标，对音视频生成算法原理（如 Diffusion、Transformer、GAN）有较好理解。
2、评测经验：
1…

登录查看完整任职要求

微信扫码，1秒登录

工作职责

音视频生成大模型评测体系建设与演进及业务保障，负责包括但不限于视频生成大模型中音频生成模块（Audio Gen）及音视频一体化的算法效果。不仅是评测的执行者，更是评测体系的架构师，通过深度的算法归因分析，驱动音频 VAE等核心组件的算法优化和迭代。
1、音视频一体化评测体系建设：
1）音频生成与音频理解相关算法、评测方法及评测指标体系具有深入理解，熟悉常见视频与音频质量评估方法，能够结合业务场景设计合理的评测方案；
2）建立从底层算子（VAE, Latent Space）到上层生成效果的全链路评测标准；
3）定义并量化音画同步性、语义关联度、音频美学表现力等关键维度；
2、Benchmark 与方法论沉淀：
1）构建具有行业领先水平的音频生成 Benchmark，涵盖音乐、环境音、音效（SFX）及人声等；
2）沉淀主客观结合的评测方法论，包括客观指标（FAD、KL Divergence、IS、CLAP Score）与专家级主观评价量表（MOS, MUSHRA）；
3、深度诊断与归因分析：输出专业评测报告，深度分析，定位模型缺陷，如针对音频 VAE 压缩失真、音频扩散模型频谱缺失、相位扭曲等问题进行深度诊断，并给出改进建议；
4、前瞻性调研与实验：持续跟踪 AIGC 领域（如 ElevenLabs、Suno、Stable Audio等）前沿技术动态，将行业最新的模型能力和技术路线转化为可落地的评测方案；
5、评测工具与平台化驱动：参与或主导自动化评测工具与平台的开发，利用技术手段提升大规模音视频数据的评测效率，探索基于大模型的自监督评测（LLM-as-a-judge）等创新手段。

📮 投递简历 ✨AI模拟面试

难度：

包括英文材料

学历+

SDK+

算法+

语音合成+

机器学习+

Transformer+

还有更多 •••

登录查看完整学习资料

相关职位

乌鸫科技-大模型评测工程师-音频方向

社招2年以上

1. 负责音频大模型的高质量的数据构造及模型评测工作，与算法团队密切合作，理解算法需求，提供满足算法研发需求的数据； 2. 设计和实现TTS/ASR/文生音乐等模型的数据标注生产工作，并不断优化迭代，高效完成标注和内容生产项目； 3. 构建并维护一套完善的各领域AI数据内容质量管理体系，积极推动组织流程及交付流程优化，全面把控内容质量并对结果负责，并不断进行优化迭代； 4. 开展音频大模型及应用的评测体系方案建设，能够从各领域专业层面设计专业评测方案、开展专业的评测服务； 5.承担本方向数据处理、数据清洗、数据蒸馏、数据合成等多样数据工程工作。

更新于 2026-03-31杭州

晓天衡宇-大模型评测工程师-音频方向

社招2年以上

更新于 2026-06-09杭州

晓天衡宇-大模型标注评测专家-音乐与复杂音频

社招3年以上

1、负责音乐生成、复杂音频和高表现力语音任务的生产质量判断、复核、问题记录和样例沉淀。 2、判断旋律、节奏、风格、人声、伴奏、音质、结构、噪声、断裂、违和感和异常听感等问题。 3、支持 TTS 表现力、韵律、情感、声音自然度和复杂听感判断。 4、沉淀音乐/复杂音频任务的问题分类、判断依据、正反例和复盘材料。 5、配合业务、质检和验收负责人建立音乐/复杂听感任务的初步方法论。参与音乐生成、TTS 表现力和复杂音频任务的数据生产质量判断，把主观听感转化为可校准、可复盘、可沉淀的方法论。

更新于 2026-07-23杭州

企业微信-多模态大模型算法工程师 -音频方向

社招3年以上企业微信SaaS

1.负责企业微信音频 AI 相关算法的研究与落地，包括但不限于语音识别（ASR）、语音合成（TTS）、声纹识别、音色转换等方向； 2.负责热词定制、领域自适应、说话人分离等场景化能力的算法设计与优化； 3.探索音频大模型在企业办公场景的创新应用，推动模型训练、微调及端侧部署落地； 4.跟进语音/音频领域前沿技术进展（Whisper、SpeechGPT 等），持续提升核心指标与用户体验； 5.与客户端、后台团队协作，完成算法从原型验证到工程化落地的全链路交付。

更新于 2026-03-31成都