logo of bytedance

字节跳动视频创作多模态大模型实习生-智能创作-筋斗云人才计划

实习兼职A108475A地点:北京状态:招聘

任职要求


1、2026届及以后毕业,博士在读,计算机视觉、人工智能、大模型等相关专业优先;
2、积极主动有热情,能与团队融洽合作相处, 具备较强的沟通能力;
3、有LLM/MLLM等多模态理解技术背景,或…
登录查看完整任职要求
微信扫码,1秒登录

工作职责


团队介绍:智能创作团队是字节跳动的创作场景业务中台,以AI赋能创造,致力于通过AI技术降低创作门槛,赋能视觉内容生产与创作的智能化升级。团队深度支持抖音、剪映、即梦、豆包、商业化等多个业务线,持续深耕图片与视频生成、智能剪辑、数字人、特效等多个业务场景,通过由AI驱动的智能化工具与算法,为用户提供了更智能、更便捷、更丰富的创作体验,助力普通用户轻松实现高质量内容创作,同时为专业创作者提供强大的技术支持,推动内容生态的繁荣与创新。

课题介绍:
背景:
视频创作是内容平台生态的最关键环节。随着AGI大模型技术的发展,行业内AI视频创作Workflow不断革新,传统的视频剪辑工具面临严峻行业挑战。AI Native视频创作大模型技术,旨在研发一套基于大模型的视频创作系统,来改善用户创作过程中灵感匮乏、创作提质提效及降低门槛使人人都是优质创作者等难点问题。应用上,可落地支持抖音、剪映Capcut、Flow等业务的图片与视频创作工具,形成公司关键业务场景的核心生态壁垒。

课题挑战:
1、中长视频多模态理解能力:创作场景需要对用户素材充分理解,因此大模型需要对输入视频的画面、声音及语音等能充分理解,具备素材剪辑处理的通用理解能力;
2、创作领域专业Agent能力:  大模型需要具备创作领域AGI的潜力,对于营销、UGC、PGC等不同创作场景,模型需要具备优质视频创作知识储备,能基于原子能力Tools规划合理的Action Sequence完成创作;
3、多模态输出能力:在视频创作领域,需要进行视频效果包装,因此模型需要具备输出音效/声音/文字贴纸/转场特效等能力;
4、高效率模型推理:由于输入视频时长较长,任务复杂,考虑应用落地成本,模型在处理长Context的推理效率与实际效果的Trade-off依赖技术突破。
包括英文材料
OpenCV+
大模型+
CVPR+
还有更多 •••
相关职位

logo of xiaohongshu
社招3年以上大模型

【职位描述】 1、负责小红书搜广推多场景排序模型优化,提升时长、互动、留存等核心指标; 2、分析海量用户行为数据,挖掘用户兴趣,优化排序模型; 3、通过超大规模机器学习模型和系统,使用先进的排序算法优化推荐效果。

上海|北京
logo of kuaishou
社招D10191

1、负责广告统一召回引擎架构演进,支撑百亿流量亿级物料,保障系统的高可用、高性能; 2、负责支撑短视频广告、直播广告等多种业务高速迭代,提升系统的研发效率和资源效率; 3、负责指导团队成员工作,带领初中级工程师完成项目目标。

更新于 2025-04-03北京
logo of kuaishou
社招D2867

1、参与快手搜索引擎研发工作,服务数亿海量用户; 2、参与搜索引擎核心架构设计与开发,涵盖的方向包括: (1)负责前沿ANN算法与引擎的研发,实现大容量、高吞吐、高精度、低成本的向量检索引擎,持续构建业界领先的技术能力; (2)负责自研百亿规模的视频、网页,商品等多类资源的检索系统研发,包括且不限于高效的建库系统,高性能的检索引擎; (3)面向搜广推业务,建设统一的检索平台,有机融合ANN,倒排等多类检索引擎,提供极致效率的建库,服务,运维体验。 3、探索AI检索新技术、新思想的应用和落地。

更新于 2025-04-03北京
logo of kuaishou
社招5年以上D2867

负责快手搜索系统的业务引擎架构方向,面向短视频、电商、本地、搜索增长等多业务场景构建大规模业务引擎,支持算法业务的高效迭代。具体职责包括: 1、构建面向各个搜索业务的全链路业务引擎模块,包括策略服务、统一特征服务,排序服务等,支持算法和产运的迭代需求; 2、构建面向在线引擎的全图化引擎架构,提升全链路算法迭代效率和系统优化效率; 3、构建在线混部,动态算力等技术在高可用基础上提升在线引擎算力供给; 4、探索AI智能搜索、AI对话等新业务,探索大模型在搜索的应用落地。

更新于 2025-04-03北京