字节跳动音视频多模态算法工程师-Seed

社招全职A2370732024-04-18地点：北京状态：招聘

扫码手机上打开

任职要求

1、本科及以上学历，计算机科学/计算机工程/电子信息技术等相关专业；
2、有自然语言处理、语音合成与识别、音乐生成等研究或者技术背景优先；
3、有预训练技术，包括但不限于高效训练、强化学习，参与过研发音频、NLP相关的预训练模型及其下…

登录查看完整任职要求

微信扫码，1秒登录

工作职责

1、参与研发多模态模型等下一代人工智能核心技术；
2、关注和推进技术在业务场景中的广泛应用，包括但不限于语言、音乐、语音、音频的生成与理解等；
3、深入调研和关注音频/NLP/多模态等方向的前沿技术。

📮 投递简历 ✨AI模拟面试

难度：

包括英文材料

学历+

NLP+

强化学习+

PyTorch+

还有更多 •••

登录查看完整学习资料

相关职位

音视频机器学习平台开发实习生-Seed

实习A92447

日常实习：面向全体在校生，为符合岗位要求的同学提供为期3个月及以上的项目实践机会。团队介绍：字节跳动 Seed 团队成立于 2023 年，致力于寻找通用智能的新方法，追求智能上限。团队研究方向涵盖 LLM、语音、视觉、世界模型、基础架构、AI Infra、下一代 AI 交互等，在中国、新加坡、美国等地设有实验室和岗位。 Seed 团队在 AI 领域拥有长期愿景与决心，坚持深耕基础，期望成为世界一流的 AI 研究团队，为科技和社会发展作出贡献。目前团队已推出业界领先的通用大模型以及前沿的多模态能力，支持豆包、扣子、即梦等超过 50 个应用场景。 1、参与设计并实现高可用、可扩展、分布式机器学习平台，支撑字节跳动智能语音相关业务算法生产与高效迭代； 2、与算法工程师密切配合，理解深度学习模型研发流程，负责/参与机器学习平台的设计、开发和维护； 3、持续提升平台效率、易用性、降低算法使用成本，探索业界前沿的机器学习相关技术，设计并实现到机器学习平台中。

更新于 2025-07-28北京

会议AI应用开发工程师

校招钉钉2026届秋

1. 构建会议AI算法工程体系（评测系统、监控系统、标注系统、AI Agent架构） 2. 会议AI基础模型的接入和优化（模型调研、训练和推理，算法工程建设） 3. AI产品的功能完善，智能化提升（AI听记、会议AI助理等线上产品的开发） 4. AI解决方案的设计和应用落地（找到具有客户价值的落地场景，真正为客户解决问题）

更新于 2025-11-24杭州

阿里云智能-语音&全模态大模型算法工程师-后训练方向-杭州/北京

社招3年以上云智能集团

深入阿里云各行业的真实业务场景，基于阿里的语音与全模态大模型（Omni/ASR/TTS），打造行业领先的领域模型与定制化解决方案，并将核心能力反哺至基座模型。工作内容包括并不限于： 1、业务攻坚与定制化调优：深入理解业务场景（如智能客服、会议转录、车载语音、在线教育等），针对客户真实需求和挑战问题（如高噪音、多说话人、情感感知等）进行算法攻坚和端到端交付。 2、大模型增强：利用后训练全链路技术和数据飞轮（数据构建 → 模型微调 → 强化对齐 → 效果评测），增强模型的语音识别、语音合成、多模态理解、声纹识别等核心能力，并将评测、数据和算法能力沉淀到基座模型，持续提升通用大模型在真实场景中的能力。 3、多模态融合与对齐优化：主导语音信号与文本、图像、视频等模态的深度融合技术研发，解决跨模态语义对齐、噪声鲁棒性、低资源适配等关键挑战。

更新于 2026-03-23北京|杭州

【提前批】多模态视频数据算法工程师

校招程序&技术类

负责构建高精度的音视频大规模数据处理管线，参与多模态核心算法的效率优化、精度迭代与多模态模型的系统整合，追求极致的多模态感知、理解、分类的性能边界探索。核心职责： 1、音视频内容检测精度提升: 设计和实现音频、视频组合的多模态算法，开发和优化视频分类、检测、分割和跟踪模型，语音识别、理解等核心算法 2、构建高质量的音视频处理管线，实现各模块的高效整合，优化音视频数据标注管线，提升处理效率 3、数据处理管线的系统优化: 设计分布式处理架构，支持大规模数据的并行处理，建立数据质量监控和异常检测机制

上海