logo of bytedance

字节跳动多模态算法实习生-智能创作

实习兼职A120965地点:深圳状态:招聘

任职要求


1、2026届硕士及以上学位在读,计算机、软件工程等相关专业优先;
2、扎实的数学和算法基础:识别、检索、多模态预训练、概率统计、数值优化等相关算法;
3、具有文本理解、文本缩略、文本改写、机器学习、图像分类和识别、图像视频理解、图像分割、目标检测、OCR、视觉创作、3D、多模态、计算机视觉NLP、生成、AIGC等一个或多个方向研究与落地经验者优先;
4、较强的问题分析与学习能力,能快速跟进前沿技术, 并应用于…
登录查看完整任职要求
微信扫码,1秒登录

工作职责


ByteIntern:面向2026届毕业生(2025年9月-2026年8月期间毕业),为符合岗位要求的同学提供转正机会。
团队介绍:智能创作团队是字节跳动创作场景业务中台,负责了抖音、剪映等产品的技术和业务研发,涵盖了计算机视觉、深度学习、高性能计算、图形学、特效引擎等技术领域,并以多种形式向公司内部各业务线提供业界前沿的内容理解、内容创作、互动体验与消费的能力和行业解决方案,同时通过火山引擎为企业客户提供服务。

1、负责计算机视觉和深度学习基本算法的开发与性能提升,从事图像算法研发和落地的相关工作;
2、将计算机视觉和人工智能技术应用到字节跳动旗下各产品线,并解决业务实际问题;
3、深入研究和探索多模态算法、迭代、落地应用,包括但不限于图像/视频的生成创作、图表理解/生成、逻辑推理等领域;
4、提出和实现前沿的算法,保持算法在工业界和学术界的领先。
包括英文材料
学历+
算法+
机器学习+
OCR+
OpenCV+
NLP+
C+++
Python+
还有更多 •••
相关职位

logo of xiaohongshu
校招AIGC算法

目前主流的素材混剪能力主要依赖于素材的端内容理解、表征匹配、高光检测等能力帮助一键完成整个视频剪辑过程,偏模板化,且预定义较为死板,无法支持更丰富的信息量注入,以及用户自主输入剪辑要求。 本课题希望通过大语言模型的语义指令解析能力,开放基于可自定义prompt的视频编辑能力,通过指令分解、协同主题文案生成的方式,帮助完成带有故事感文案生成能力的视频剪辑功能。主要的技术难点包括: 1、多模态理解与表征:需要模型能够深入理解不同模态内容(视频片段、图像、音频)的语义和上下文; 2、时序理解与编辑:视频混剪需要理解时序信息,包括情节发展、节奏感、转场点等; 3、文案生成和改写:可自定义主题、风格的素材文案生成能力。

更新于 2026-03-24北京|杭州|上海
logo of xiaohongshu
实习内容理解

1. 负责小红书站内搜索广告智能创意,在搜索场景下对小红书站内广告文案、视频、图片等素材进行内容理解,并生成投放高竞争力素材,提高转换效率。 2. 负责广告创作平台的算法能力优化,利用算法能力为广告主提供投前、投中、投后各类洞察或者提效功能。 3. 追踪业界创意、多模态及Generative AI方向最新技术,落地应用并提升广告创意理解、自动生成和优化等场景的效果。

更新于 2026-02-02上海|北京
logo of kuaishou
实习J1020

1、基于快手自研的文生视频(可灵)、文生图(可图)、文生文(快意)等大语言模型和多模态模型,研发包含多媒体素材AIGC自动化创作系统与工具平台和 Chatbot、VideoCaption、VQA 等各类形态的工业级 AI Agent 系统,并应用于快手生态的内容生产与消费、内容理解与素材挖掘等各类业务场景; 2、参与研发AIGC、AI Agent等系统所依赖的关键子系统,并于算法团队合作持续迭代AIGC的内容质量与效果、AI Agent的智能化效果; 3、跟踪业界AIGC、AI Agent等内容成产、智能体的前沿进展,并将最新的大模型技术能力引入到实际业务场景中。

更新于 2025-05-14北京
logo of kuaishou
实习J1020

1、基于快手自研的文生视频、文生图、文生文等大语言模型和多模态模型,研发包含多媒体素材AIGC自动化创作系统与工具平台和 Chatbot、VideoCaption、VQA 等各类形态的工业级 AI Agent 系统,并应用于快手生态的内容生产与消费、内容理解与素材挖掘等各类业务场景; 2、参与研发AIGC、AI Agent等系统所依赖的关键子系统,并与算法团队合作持续迭代AIGC的内容质量与效果、AI Agent的智能化效果; 3、跟踪业界AIGC、AI Agent等内容成产、智能体的前沿进展,并将最新的大模型技术能力引入到实际业务场景中。

更新于 2025-04-30北京