字节跳动音频理解编辑-CQC
团队介绍:Data语音团队致力于语音/音频/音乐相关的AI核心技术研发和产品创新。部门支撑音频和多模态内容从生产、编辑到消费的全流程,赋能内容创作和互动,并以中台形式支持集团多个业务,提供业界前沿的技术能力与解决方案。 1、支持语音交互技术在字节跳动公司内外丰富的业务场景落地,解决落地过程中的前沿问题,聚焦智能硬件AI交互中的的音频理解处理技术方案的迭代与创新,专注端侧智能交互的前沿技术和算法效果; 2、追求和探索业界最前沿算法,结合LLM与音频处理,实现音频内容创作和消费业务场景的智能音频理解和处理算法研发和业务支持; 3、跟踪智能音频领域的最新技术进展并升级团队自研的各算法系统,包括回声消除、AI降噪、多通道音频理解及处理; 4、跟踪研发业界先进的音频进展,统计模型/机器学习/深度学习技术在语音/音频领域研发并落地产品。
ByteIntern:面向2026届毕业生(2025年9月-2026年8月期间毕业),为符合岗位要求的同学提供转正机会。 团队介绍:Data语音团队致力于语音/音频/音乐相关的AI核心技术研发和产品创新。部门支撑音频和多模态内容从生产、编辑到消费的全流程,赋能内容创作和互动,并以中台形式支持集团多个业务,提供业界前沿的技术能力与解决方案。 1、支持端到端语音交互技术在业务场景落地,探索语音端到端的业务应用前沿问题; 2、支持语音识别技术在字节跳动公司内外丰富的业务场景落地,解决落地过程中的前沿问题,持续优化语音识别核心技术效果; 3、搭建音频理解核心技术体系,专注音频理解的前沿技术和算法效果,追求和探索业界最前沿算法。
1、音频回放及收音效果审美、评价与标准体系建立和维护; 2、与用户沟通和内部音频团队共创,从效果认知维度牵引音频竞争力; 3、维护与艺术院校的项目合作,赋能内部音频效果团队,设计并执行正确审美的录音、回放测试方案,基于听感、测试数据提出具体的、可工程化的改进方案。
目前主流的素材混剪能力主要依赖于素材的端内容理解、表征匹配、高光检测等能力帮助一键完成整个视频剪辑过程,偏模板化,且预定义较为死板,无法支持更丰富的信息量注入,以及用户自主输入剪辑要求。 本课题希望通过大语言模型的语义指令解析能力,开放基于可自定义prompt的视频编辑能力,通过指令分解、协同主题文案生成的方式,帮助完成带有故事感文案生成能力的视频剪辑功能。主要的技术难点包括: 1、多模态理解与表征:需要模型能够深入理解不同模态内容(视频片段、图像、音频)的语义和上下文; 2、时序理解与编辑:视频混剪需要理解时序信息,包括情节发展、节奏感、转场点等; 3、文案生成和改写:可自定义主题、风格的素材文案生成能力。