字节跳动视频创作多模态大模型实习生-智能创作-筋斗云人才计划

实习兼职A108475A2025-02-26地点：北京状态：招聘

扫码手机上打开

任职要求

1、2026届及以后毕业，博士在读，计算机视觉、人工智能、大模型等相关专业优先；
2、积极主动有热情，能与团队融洽合作相处, 具备较强的沟通能力；
3、有LLM/MLLM等多模态理解技术背景，或…

登录查看完整任职要求

微信扫码，1秒登录

工作职责

团队介绍：智能创作团队是字节跳动的创作场景业务中台，以AI赋能创造，致力于通过AI技术降低创作门槛，赋能视觉内容生产与创作的智能化升级。团队深度支持抖音、剪映、即梦、豆包、商业化等多个业务线，持续深耕图片与视频生成、智能剪辑、数字人、特效等多个业务场景，通过由AI驱动的智能化工具与算法，为用户提供了更智能、更便捷、更丰富的创作体验，助力普通用户轻松实现高质量内容创作，同时为专业创作者提供强大的技术支持，推动内容生态的繁荣与创新。

课题介绍：
背景：
视频创作是内容平台生态的最关键环节。随着AGI大模型技术的发展，行业内AI视频创作Workflow不断革新，传统的视频剪辑工具面临严峻行业挑战。AI Native视频创作大模型技术，旨在研发一套基于大模型的视频创作系统，来改善用户创作过程中灵感匮乏、创作提质提效及降低门槛使人人都是优质创作者等难点问题。应用上，可落地支持抖音、剪映Capcut、Flow等业务的图片与视频创作工具，形成公司关键业务场景的核心生态壁垒。

课题挑战：
1、中长视频多模态理解能力：创作场景需要对用户素材充分理解，因此大模型需要对输入视频的画面、声音及语音等能充分理解，具备素材剪辑处理的通用理解能力；
2、创作领域专业Agent能力:  大模型需要具备创作领域AGI的潜力，对于营销、UGC、PGC等不同创作场景，模型需要具备优质视频创作知识储备，能基于原子能力Tools规划合理的Action Sequence完成创作；
3、多模态输出能力：在视频创作领域，需要进行视频效果包装，因此模型需要具备输出音效/声音/文字贴纸/转场特效等能力；
4、高效率模型推理：由于输入视频时长较长，任务复杂，考虑应用落地成本，模型在处理长Context的推理效率与实际效果的Trade-off依赖技术突破。

📮 投递简历 ✨AI模拟面试

难度：

包括英文材料

OpenCV+

大模型+

CVPR+

还有更多 •••

登录查看完整学习资料

相关职位

模型技术-算法工程师/专家-AI技术部

社招3年以上大模型

【职位描述】 1、负责小红书搜广推多场景排序模型优化，提升时长、互动、留存等核心指标； 2、分析海量用户行为数据，挖掘用户兴趣，优化排序模型； 3、通过超大规模机器学习模型和系统，使用先进的排序算法优化推荐效果。

上海|北京

广告引擎工程师-召回引擎TechLead

社招D10191

1、负责广告统一召回引擎架构演进，支撑百亿流量亿级物料，保障系统的高可用、高性能； 2、负责支撑短视频广告、直播广告等多种业务高速迭代，提升系统的研发效率和资源效率； 3、负责指导团队成员工作，带领初中级工程师完成项目目标。

更新于 2025-04-03北京

检索引擎研发工程师

社招D2867

1、参与快手搜索引擎研发工作，服务数亿海量用户； 2、参与搜索引擎核心架构设计与开发，涵盖的方向包括：（1）负责前沿ANN算法与引擎的研发，实现大容量、高吞吐、高精度、低成本的向量检索引擎，持续构建业界领先的技术能力；（2）负责自研百亿规模的视频、网页，商品等多类资源的检索系统研发，包括且不限于高效的建库系统，高性能的检索引擎；（3）面向搜广推业务，建设统一的检索平台，有机融合ANN，倒排等多类检索引擎，提供极致效率的建库，服务，运维体验。 3、探索AI检索新技术、新思想的应用和落地。

更新于 2025-04-03北京

搜索架构业务引擎架构师

社招5年以上D2867

负责快手搜索系统的业务引擎架构方向，面向短视频、电商、本地、搜索增长等多业务场景构建大规模业务引擎，支持算法业务的高效迭代。具体职责包括： 1、构建面向各个搜索业务的全链路业务引擎模块，包括策略服务、统一特征服务，排序服务等，支持算法和产运的迭代需求； 2、构建面向在线引擎的全图化引擎架构，提升全链路算法迭代效率和系统优化效率； 3、构建在线混部，动态算力等技术在高可用基础上提升在线引擎算力供给； 4、探索AI智能搜索、AI对话等新业务，探索大模型在搜索的应用落地。

更新于 2025-04-03北京