快手音乐AIGC大模型算法专家
任职要求
1、机器学习、模式识别、信号处理等计算机相关专业的硕士或者博士; 2、有较丰富的语音/音频/音乐生成大模型相关领域经验; 3、熟练掌握C/C++、Python,有较强的代码实现能力; 4、具有独立解决问题的能力,良…
工作职责
1、负责AI音乐生成大模型(Text-to-Music)架构设计、关键算法研发和优化; 2、负责跟进行业前沿技术发展趋势,跟踪国际最新技术发展方向; 3、推动音乐AIGC技术在快手各业务场景中的落地,探索音乐生成技术在业务中的新玩法和业务创新。
字节跳动豆包大模型团队成立于 2023 年,致力于开发业界最先进的 AI 大模型技术,成为世界一流的研究团队,为科技和社会发展作出贡献。 豆包大模型团队在AI领域拥有长期愿景与决心,研究方向涵盖NLP、CV、语音等,在中国、新加坡、美国等地设有实验室和研究岗位。团队依托平台充足的数据、计算等资源,在相关领域持续投入,已推出自研通用大模型,提供多模态能力,下游支持豆包、扣子、即梦等50+业务,并通过火山引擎开放给企业客户。目前,豆包APP已成为中国市场用户量最大的AIGC应用。 1、与不同职能协作,为音乐技术开发提供完整数据方案与策略,并为整体数据质量负责; 2、负责音乐技术的模型效果评估体系设计并产出结论,根据结论进行系统分析,提出有价值可落地的改进方案,协算法提升模型效果; 3、合理评估和处理数据获取方案及质量; 4、协调数据处理资源,对数据生产的成本、质量、效率等进行整体把控。
音视频生成大模型评测体系建设与演进及业务保障,负责包括但不限于视频生成大模型中音频生成模块(Audio Gen)及音视频一体化的算法效果。不仅是评测的执行者,更是评测体系的架构师,通过深度的算法归因分析,驱动音频 VAE等核心组件的算法优化和迭代。 1、音视频一体化评测体系建设: 1)音频生成与音频理解相关算法、评测方法及评测指标体系具有深入理解,熟悉常见视频与音频质量评估方法,能够结合业务场景设计合理的评测方案; 2)建立从底层算子(VAE, Latent Space)到上层生成效果的全链路评测标准; 3)定义并量化音画同步性、语义关联度、音频美学表现力等关键维度; 2、Benchmark 与方法论沉淀: 1)构建具有行业领先水平的音频生成 Benchmark,涵盖音乐、环境音、音效(SFX)及人声等; 2)沉淀主客观结合的评测方法论,包括客观指标(FAD、KL Divergence、IS、CLAP Score)与专家级主观评价量表(MOS, MUSHRA); 3、深度诊断与归因分析:输出专业评测报告,深度分析,定位模型缺陷,如针对音频 VAE 压缩失真、音频扩散模型频谱缺失、相位扭曲等问题进行深度诊断,并给出改进建议; 4、前瞻性调研与实验:持续跟踪 AIGC 领域(如 ElevenLabs、Suno、Stable Audio等)前沿技术动态,将行业最新的模型能力和技术路线转化为可落地的评测方案; 5、评测工具与平台化驱动:参与或主导自动化评测工具与平台的开发,利用技术手段提升大规模音视频数据的评测效率,探索基于大模型的自监督评测(LLM-as-a-judge)等创新手段。
1、负责音乐相关业务的大语言模型的研发和应用,相关研发技术和解决方案在抖音、汽水音乐等产品中应用,满足音乐相关业务场景中的用户不断增长的智能交互需求,全面提升用户在音乐相关的创作和消费场景的体验; 2、参与音乐相关大模型的研发,如音乐预训练、音乐多模态模型等; 3、参与大模型技术在音乐场景中的探索和相关应用落地,如音乐搜推、音乐助手、视频配乐等; 4、在音乐人工智能领域开展前沿研究,在未来生活中的更多音乐相关的使用场景的深入研究和探索。