logo of bytedance

字节跳动音频算法研究专家-视频与边缘

社招全职3年以上A01083地点:上海状态:招聘

任职要求


1、获得硕士及以上学位,计算机科学、人工智能、语音处理、机器学习等专业优先;
2、至少3年在音频、音乐或相关领域的研究研发经验,熟悉Diffusion、CRN、Codec或理解模块之一;
3、熟悉深度学习、神经网络以及相关的开源工具和框…
登录查看完整任职要求
微信扫码,1秒登录

工作职责


1、负责实时音频团队音乐基础技术,歌唱音乐等音频的实时理解与生成;
2、侧重于研发音乐生成、音乐理解、智能美声、音频生成与理解的基础算法;
3、通过跟踪和创新,确保算法方面的行业领先,服务于各个业务场景包括直播、游戏、社交、会议、数智人等等,帮助业务产生实际价值和打造业界领先的语音应用产品;
4、持续关注学术界和行业的最新研究动态,参与国际会议、研讨会,与全球顶级团队进行交流合作。
包括英文材料
学历+
机器学习+
深度学习+
TensorFlow+
还有更多 •••
相关职位

logo of taptap
社招技术大类

1. 研发面向游戏平台场景的多模态大模型,包括文本、图像、视频、音频等多模态数据的理解与生成; 2. 构建与优化游戏内容理解算法,涵盖游戏玩法解析、类型识别、特色标签生成、玩家评论分析、剧情/世界观理解等; 3. 参与 TapTap 风格的视频与广告素材生成方案,支持用户增长团队等多模态素材生成的训练需求; 4. 支持游戏搜索与发现,利用多模态大模型进行精准匹配、语义搜索、跨模态检索(文本→视频、视频→游戏等); 5. 跟进并引入最新的多模态大模型研究成果,探索其在游戏行业的新应用场景; 6. 有预研的空间,进行学术研究与论文发表,推动顶会/顶刊产出,并结合业务进行技术落地; 7. 优化大模型的训练与推理性能,保障在海量游戏内容和用户数据上的高效运行。

更新于 2025-08-15上海
logo of xd
社招技术大类

1. 研发面向游戏平台场景的多模态大模型,包括文本、图像、视频、音频等多模态数据的理解与生成; 2. 构建与优化游戏内容理解算法,涵盖游戏玩法解析、类型识别、特色标签生成、玩家评论分析、剧情/世界观理解等; 3. 参与 TapTap 风格的视频与广告素材生成方案,支持用户增长团队等多模态素材生成的训练需求; 4. 支持游戏搜索与发现,利用多模态大模型进行精准匹配、语义搜索、跨模态检索(文本→视频、视频→游戏等); 5. 跟进并引入最新的多模态大模型研究成果,探索其在游戏行业的新应用场景; 6. 有预研的空间,进行学术研究与论文发表,推动顶会/顶刊产出,并结合业务进行技术落地; 7. 优化大模型的训练与推理性能,保障在海量游戏内容和用户数据上的高效运行。

更新于 2025-12-10上海
logo of kuaishou
社招1-3年J0011

1、负责语音、音频等领域核心算法的研究与工程化,包括但不限于语音降噪/分离、回声消除、语音检测等方向; 2、不断改善短视频、直播和语音连麦等场景的音频体验; 3、在快手AI探索业务中,探索业界前沿音频技术在业务中的落地与指标优化。

更新于 2026-04-07北京
logo of kuaishou
社招3-5年J0012

音视频生成大模型评测体系建设与演进及业务保障,负责包括但不限于视频生成大模型中音频生成模块(Audio Gen)及音视频一体化的算法效果。不仅是评测的执行者,更是评测体系的架构师,通过深度的算法归因分析,驱动音频 VAE等核心组件的算法优化和迭代。 1、音视频一体化评测体系建设: 1)音频生成与音频理解相关算法、评测方法及评测指标体系具有深入理解,熟悉常见视频与音频质量评估方法,能够结合业务场景设计合理的评测方案; 2)建立从底层算子(VAE, Latent Space)到上层生成效果的全链路评测标准; 3)定义并量化音画同步性、语义关联度、音频美学表现力等关键维度; 2、Benchmark 与方法论沉淀: 1)构建具有行业领先水平的音频生成 Benchmark,涵盖音乐、环境音、音效(SFX)及人声等; 2)沉淀主客观结合的评测方法论,包括客观指标(FAD、KL Divergence、IS、CLAP Score)与专家级主观评价量表(MOS, MUSHRA); 3、深度诊断与归因分析:输出专业评测报告,深度分析,定位模型缺陷,如针对音频 VAE 压缩失真、音频扩散模型频谱缺失、相位扭曲等问题进行深度诊断,并给出改进建议; 4、前瞻性调研与实验:持续跟踪 AIGC 领域(如 ElevenLabs、Suno、Stable Audio等)前沿技术动态,将行业最新的模型能力和技术路线转化为可落地的评测方案; 5、评测工具与平台化驱动:参与或主导自动化评测工具与平台的开发,利用技术手段提升大规模音视频数据的评测效率,探索基于大模型的自监督评测(LLM-as-a-judge)等创新手段。

更新于 2026-03-25北京