字节跳动音频理解编辑-CQC
任职要求
1、本科及以上学历,音乐制作/作曲专业,具备视唱练耳能力;
2、具备良好的英语…工作职责
1、结合自身音乐制作能力,完成音频理解标注任务及效果评测,协助训练音频理解模型,包括但不限于:听辨记谱,编曲分析,音乐评论等; 2、深入了解音乐制作逻辑,基于业务需求,推动音频理解模型的优化与落地; 3、及时反馈音频理解标注中所发现的问题,整理和维护音频理解模型训练数据; 4、配合团队完成需求评测/想法验证机动测评任务。
1.主动跟踪学术界与工业界在图像视频生成式模型、多模态理解模型、语音模型、多模态理解生成统一建模等方向的创新算法研究,攻克Diffusion模型加速、多模态理解模型、语音模型(ASR、TTS、Omini等)、多模态理解生成统一建模加速等技术方向,包括但不限于:(Attention量化/稀疏加速、蒸馏加速、量化、投机解码、剪枝、KV Cache 压缩等等); 2.通过分析模型和任务性能瓶颈,设计创新的算法优化方案,提升多模态大模型的推理效率,显著降低端到端延迟; 3.作为算法与框架团队之间的技术桥梁,聚焦于图像理解、视频生成、音频理解生成、视觉多轮交互、实时对话等任务,提升模型在推理端的性能; 4.高效协同框架开发及业务算法团队,确保技术方案落地。撰写高质量的技术文档与实验报告,并组织内部分享,推动团队整体技术认知提升。
ByteIntern:面向2026届毕业生(2025年9月-2026年8月期间毕业),为符合岗位要求的同学提供转正机会。 团队介绍:Data语音团队致力于语音/音频/音乐相关的AI核心技术研发和产品创新。部门支撑音频和多模态内容从生产、编辑到消费的全流程,赋能内容创作和互动,并以中台形式支持集团多个业务,提供业界前沿的技术能力与解决方案。 1、支持端到端语音交互技术在业务场景落地,探索语音端到端的业务应用前沿问题; 2、支持语音识别技术在字节跳动公司内外丰富的业务场景落地,解决落地过程中的前沿问题,持续优化语音识别核心技术效果; 3、搭建音频理解核心技术体系,专注音频理解的前沿技术和算法效果,追求和探索业界最前沿算法。
团队介绍:Data语音团队致力于语音/音频/音乐相关的AI核心技术研发和产品创新。部门支撑音频和多模态内容从生产、编辑到消费的全流程,赋能内容创作和互动,并以中台形式支持集团多个业务,提供业界前沿的技术能力与解决方案。 1、支持语音交互技术在字节跳动公司内外丰富的业务场景落地,解决落地过程中的前沿问题,聚焦智能硬件AI交互中的的音频理解处理技术方案的迭代与创新,专注端侧智能交互的前沿技术和算法效果; 2、追求和探索业界最前沿算法,结合LLM与音频处理,实现音频内容创作和消费业务场景的智能音频理解和处理算法研发和业务支持; 3、跟踪智能音频领域的最新技术进展并升级团队自研的各算法系统,包括回声消除、AI降噪、多通道音频理解及处理; 4、跟踪研发业界先进的音频进展,统计模型/机器学习/深度学习技术在语音/音频领域研发并落地产品。
