快手音频大模型评测工程师-【可灵AI专项】
任职要求
1、专业功底: 1)本科及以上学历,有音频相关经验或学历:计算机、人工智能、数字媒体技术、录音工程、音乐制作、音响导演、音频编辑、音乐工程等专业优先。 2)具备同期录音、后期混音、配乐制作或SDK声学调校、音质评价等相关领域的学习背景或实践经验,对音频质量的主客观评价有一定的了解; 3)熟悉主观音质评价体系,对于各类音频的听评标准有敏感性,有金耳朵认证者优先; 4)音/视频生成领域评测方法与指标体系有系统研究或实践经验,有音频类算法评测经验优先(包括TTS、文生音频、V2A、音视频一体化模型等),对常见算法模型及生成模型原理有较好理解,熟悉机器学习模型评估方法与指标,对音视频生成算法原理(如 Diffusion、Transformer、GAN)有较好理解。 2、评测经验: 1…
工作职责
音视频生成大模型评测体系建设与演进及业务保障,负责包括但不限于视频生成大模型中音频生成模块(Audio Gen)及音视频一体化的算法效果。不仅是评测的执行者,更是评测体系的架构师,通过深度的算法归因分析,驱动音频 VAE等核心组件的算法优化和迭代。 1、音视频一体化评测体系建设: 1)音频生成与音频理解相关算法、评测方法及评测指标体系具有深入理解,熟悉常见视频与音频质量评估方法,能够结合业务场景设计合理的评测方案; 2)建立从底层算子(VAE, Latent Space)到上层生成效果的全链路评测标准; 3)定义并量化音画同步性、语义关联度、音频美学表现力等关键维度; 2、Benchmark 与方法论沉淀: 1)构建具有行业领先水平的音频生成 Benchmark,涵盖音乐、环境音、音效(SFX)及人声等; 2)沉淀主客观结合的评测方法论,包括客观指标(FAD、KL Divergence、IS、CLAP Score)与专家级主观评价量表(MOS, MUSHRA); 3、深度诊断与归因分析:输出专业评测报告,深度分析,定位模型缺陷,如针对音频 VAE 压缩失真、音频扩散模型频谱缺失、相位扭曲等问题进行深度诊断,并给出改进建议; 4、前瞻性调研与实验:持续跟踪 AIGC 领域(如 ElevenLabs、Suno、Stable Audio等)前沿技术动态,将行业最新的模型能力和技术路线转化为可落地的评测方案; 5、评测工具与平台化驱动:参与或主导自动化评测工具与平台的开发,利用技术手段提升大规模音视频数据的评测效率,探索基于大模型的自监督评测(LLM-as-a-judge)等创新手段。
1、参与大模型数据平台架构设计与开发,为大模型数据资产建设管理提供平台支持,支持数据资产上架、知识生产、检索、训练应用等;数据用途上包含预训练数据、微调数据、评测数据等,数据模态上包含文本、图片、视频、音频等各类模态数据。 2、参与高可用、可扩展、分布式大模型评测平台架构设计与开发,支持多模型、多方法、多评测集的评测任务执行、评测结果分析,优化评测框架,提升评测效率,支持实现大模型快速迭代的评测要求。 3、在通用BenchMark基础上构建业务领域Benchmark,围绕“语料供给-模型迭代-模型评测”的链路不断优化链路,提升生产效率。 4、持续的创新和优化能力,提升产品整体质量,改善用户体验。
- 参与大模型数据策略与数据迭代(文本/多模态/代码),负责大规模数据构建与合成,支撑预训练/对齐效果 - 协助多模态、代码与工具调用数据的构建,进行包括分布式的清洗、合成、近重复/噪声检测与去重,建立难例库与反馈闭环,持续提升数据质量与密度 - 参与数据质量评估与筛选算法的实现:低质过滤,质量评分、LLM判别与复核等;针对代码与工具调用场景,引入编译/单测/沙箱执行/参数一致性校验 - 支持对齐与偏好学习数据,配合消融实验及评测指标分析,输出采样/准入/退场/权重等数据策略并推动落地
企业级 AI 方案设计与落地:围绕财务自动化、人力智能决策、法务风险洞察、研发提效等核心场景,主导从 0 → 1 的大模型应用规划、可行性分析与实施。前沿大模型应用研发:深入参与代码生成、AI-BI、企业知识问答、多模态 AIGC(图像 / 文本 / 语音 / 视频)等方向的系统设计与算法优化,推动产品化交付。模型全生命周期训练:负责预训练、指令微调、强化学习(如 DPO/PPO/GRPO)、持续蒸馏等工作,构建可复用的训练pipeline与评测体系,实现模型效果与成本的最优平衡。探索落地最前沿的AI技术:紧跟学术与业界动态,撰写技术洞察、内部分享或对外开源/发表论文,提升团队在大模型领域的影响力。
- 面向公司内部视频智能剪辑工具的端到端研发:React/TypeScript 前端(时间线与轨道、剪切/拼接、转场/滤镜、字幕/音频波形、素材管理)、Java/Spring Boot 后端(转码/合成任务编排、权限与审核、导出/发布流水线),覆盖需求评审、API 设计、数据建模与上线运维全流程; - 参与/主导系统与架构设计:领域建模与边界划分、模块/插件化与扩展点设计、BFF/微服务拆分、任务队列与异步处理、幂等与重试、存储与缓存策略、对象存储/CDN/搜索等基础设施建设;针对音视频场景进行技术选型(FFmpeg、Media APIs、WebAssembly/WebCodecs/WebGL 等); - 负责前端技术方案与工程化:组件化与状态管理、复杂交互与性能优化(虚拟化时间线、渐进渲染、分片加载、Worker/OffscreenCanvas)、构建提速与包体积治理、可访问性与可用性体验; - 推动代码质量与可靠性:编码规范与 Code Review、单元/集成/E2E 测试、契约测试、静态检查与类型约束、异常与容错策略、性能与稳定性指标(如导出成功率、端到端耗时、Core Web Vitals、99.9% 可用性); - 持续完善可观测性与运维:日志/指标/链路追踪(OpenTelemetry)、错误告警、容量评估与弹性扩缩、灰度发布与快速回滚;构建用于多媒体处理的任务监控与可视化面板; - 工程效率与 AI 助力:熟练使用 Cursor 等 AI 开发工具进行跨文件重构、目标化编辑、测试/文档生成与方案验证,沉淀提示词与使用规范,提升交付效率与一致性; - 与产品、设计、算法/多媒体与运维团队高效协作,按期高质量交付。