字节跳动智能音频算法工程师

社招全职A991522025-01-21地点：深圳状态：招聘

扫码手机上打开

任职要求

1、丰富的数字信号处理和人工智能/深度学习系统研发经验：在3D空间音频渲染，降噪/回声/去混响等音频前处理，声纹/唤醒，声音事件检测，语音识别，自然语言处理等一个或几个领域有项目实践；
2、熟悉数据结构和算法，深度网络模型设计和调优，熟练掌握Kaldi，Tens…

登录查看完整任职要求

微信扫码，1秒登录

工作职责

1、负责字节跳动旗下音频内容消费业务场景的智能音频理解和处理算法研发和业务支持，业务包括但不限于抖音，西瓜视频，直播，剪映等；
2、搭建智能音频理解和处理的系统级解决方案，为字节跳动智能音频ToB提供技术火力；
3、跟踪智能音频领域的最新技术进展并升级团队自研的各算法系统，包括3D空间渲染，音频质量提升系统，音频事件检测系统，音频理解系统等；
4、跟进产品业务的音频需求，持续改进产品的音频质量体验；
5、跟踪研发业界先进的音频进展，统计模型/机器学习/深度学习技术在语音/音频领域研发并落地产品。

📮 投递简历 ✨AI模拟面试

难度：

包括英文材料

深度学习+

语音识别+

NLP+

还有更多 •••

登录查看完整学习资料

相关职位

多模态算法工程师-语音方向

社招大模型

在算力驱动的 AGI 和人文精神的烟火气交汇之处，我们真诚邀请对大模型 Omni Model 有热情的同学加入，共同打造更具影响力的智能系统。你会成为团队的一员，并和其他同事协作，共同研发 SOTA 的 Omni Model。期待你以务实和客观的科学态度来推进技术的进展，不被过往经验裹挟、不被主观偏好影响。期待你除了算法外仍然是为出色的工程师。期待你对技术有强烈的好奇心和开放心态。区别于传统 ASR / TTS 级联技术，我们希望打造端到端的 Omni Model 在实时交互中释放大模型的智力水平，彻底改变以 Chatbot 文字为主的人机交互界面岗位说明：你会负责围绕大模型 Omni Model 构建语音模态的相关研究工作，包括但不限于如下事项海量的语音数据处理和构建：定性分析、定量评估数据质量，并给出 scalable 的改进方案；探索跨模态（文字/视觉/语音）混合训练的最佳实践；探索更加高效且合理的模型架构，让模型更加理解音频，同时让模型具备更好的语音合成能力研究并探索基于 Omni Model 的 Post Train，包含但不限于 SFT 和 RL

北京|上海

算法工程师/研究员(J65868)

社招0-3年XYZ

各类大模型算法岗位：包括不限于 ✓大模型应用（Rag、Agent的研究等） ✓大模型技术研究 (指令微调、强化学习、推理等) ✓多模态理解与生成研究（文本、图像、视频、音频等）

更新于 2025-02-18北京

实时互动音频算法工程师（北京/深圳）

社招3年以上CSIG技术

1.负责实时互动 AI 对话技术的研究与开发，推动算法在语音识别、增强、理解、合成等方向的落地与优化； 2.跟踪学术界及行业最新研究动态，并结合业务需求优化现有算法，提升系统性能和用户体验。

更新于 2025-04-17北京

端到端多模态交互算法工程师

社招算法开发岗

1.负责跨平台(iOS/Android/Linux)、跨端(服务端+客户端)音视频交互SDK设计、开发与优化； 2.负责和各产品线合作，接入成熟的音视频交互相关处理算法，提升音视频交互在产品中的表现效果； 3.参与开发支持音视频交互相关业务落地和技术研发； 4.持续学习新编程技术、工业界学术界语音系统进展，精炼业务逻辑。

更新于 2025-06-20北京