logo of bytedance

字节跳动音视频多模态算法工程师-Seed

社招全职A237073地点:北京状态:招聘

任职要求


1、本科及以上学历,计算机科学/计算机工程/电子信息技术等相关专业;
2、有自然语言处理、语音合成与识别、音乐生成等研究或者技术背景优先;
3、有预训练技术,包括但不限于高效训练、强化学习,参与过研发音频、NLP相关的预训练模型及其下游应用者优先;
4、熟练掌握Pytorch深度学习框架,Python编程语言;
5、发表过领域顶级会议文章(NeurIPSICMLICLR、ACL、Interspeech、ICASSP等)、相关实习经验或者ACM竞赛获奖者优先。

工作职责


1、参与研发多模态模型等下一代人工智能核心技术;
2、关注和推进技术在业务场景中的广泛应用,包括但不限于语言、音乐、语音、音频的生成与理解等;
3、深入调研和关注音频/NLP/多模态等方向的前沿技术。
包括英文材料
学历+
NLP+
强化学习+
PyTorch+
深度学习+
Python+
NeurIPS+
ICML+
相关职位

logo of bytedance
实习A92447

日常实习:面向全体在校生,为符合岗位要求的同学提供为期3个月及以上的项目实践机会。 团队介绍:字节跳动 Seed 团队成立于 2023 年,致力于寻找通用智能的新方法,追求智能上限。团队研究方向涵盖 LLM、语音、视觉、世界模型、基础架构、AI Infra、下一代 AI 交互等,在中国、新加坡、美国等地设有实验室和岗位。 Seed 团队在 AI 领域拥有长期愿景与决心,坚持深耕基础,期望成为世界一流的 AI 研究团队,为科技和社会发展作出贡献。目前团队已推出业界领先的通用大模型以及前沿的多模态能力,支持豆包、扣子、即梦等超过 50 个应用场景。 1、参与设计并实现高可用、可扩展、分布式机器学习平台,支撑字节跳动智能语音相关业务算法生产与高效迭代; 2、与算法工程师密切配合,理解深度学习模型研发流程,负责/参与机器学习平台的设计、开发和维护; 3、持续提升平台效率、易用性、降低算法使用成本,探索业界前沿的机器学习相关技术,设计并实现到机器学习平台中。

更新于 2025-07-28
logo of dingtalk
校招钉钉2026届秋

1. 构建会议AI算法工程体系(评测系统、监控系统、标注系统、AI Agent架构) 2. 会议AI基础模型的接入和优化(模型调研、训练和推理,算法工程建设) 3. AI产品的功能完善,智能化提升(AI听记、会议AI助理等线上产品的开发) 4. AI解决方案的设计和应用落地(找到具有客户价值的落地场景,真正为客户解决问题)

更新于 2025-08-27
logo of mihoyo
校招程序&技术类

负责构建高精度的音视频大规模数据处理管线,参与多模态核心算法的效率优化、精度迭代与多模态模型的系统整合,追求极致的多模态感知、理解、分类的性能边界探索。 核心职责: 1、音视频内容检测精度提升: 设计和实现音频、视频组合的多模态算法,开发和优化视频分类、检测、分割和跟踪模型,语音识别、理解等核心算法 2、构建高质量的音视频处理管线,实现各模块的高效整合,优化音视频数据标注管线,提升处理效率 3、数据处理管线的系统优化: 设计分布式处理架构,支持大规模数据的并行处理,建立数据质量监控和异常检测机制

logo of mihoyo
实习程序&技术类

负责构建高精度的音视频大规模数据处理管线,参与多模态核心算法的效率优化、精度迭代与多模态模型的系统整合,追求极致的多模态感知、理解、分类的性能边界探索。 核心职责: 1、音视频内容检测精度提升: 设计和实现音频、视频组合的多模态算法,开发和优化视频分类、检测、分割和跟踪模型,语音识别、理解等核心算法 2、构建高质量的音视频处理管线,实现各模块的高效整合,优化音视频数据标注管线,提升处理效率 3、数据处理管线的系统优化: 设计分布式处理架构,支持大规模数据的并行处理,建立数据质量监控和异常检测机制