logo of bytedance

字节跳动【实习】多模态创作大模型研究-智能创作(上海)

实习兼职A248661地点:上海状态:招聘

任职要求


1、2027届及以后毕业,博士在读,计算机、人工智能等相关专业优先;
2、具备一个或多个领域的研究、实践经验,包括但不限于以下方向;
1)对多模态理解/Omni-modal模型/LLM的Post-Training有深入理解与实践经验,具备基于基础模型进行图像视频Captioning/Prompt Rephraser/文本创作等任务迭代与优化的潜力;
2)对图像生成/视频生成/多模态理解生成统一建模等领域有深入研究…
登录查看完整任职要求
微信扫码,1秒登录

工作职责


团队介绍:智能创作团队是字节跳动的创作场景业务中台,以AI赋能创造,致力于通过AI技术降低创作门槛,赋能视觉内容生产与创作的智能化升级。团队深度支持抖音、剪映、即梦、豆包、商业化等多个业务线,持续深耕图片与视频生成、智能剪辑、数字人、特效等多个业务场景,通过由AI驱动的智能化工具与算法,为用户提供了更智能、更便捷、更丰富的创作体验,助力普通用户轻松实现高质量内容创作,同时为专业创作者提供强大的技术支持,推动内容生态的繁荣与创新。

课题介绍:随着AGI大模型技术发展,AI多模态图文视频创作范式迎来深刻变革,基于生成式AI与Agent技术的创作解决方案不断涌现。多模态创作大模型依托全模态内容理解、AIGC图像视频生成及Agentic基座模型等前沿技术,构建灵活高效、业界领先的多媒体内容创作方式。通过Continual Training、Post-Training等方式,持续提升模型在内容理解、图像视频生成的能力上限,端到端优化基础模型在创作Agent场景下的整体效果。

课题挑战:
1、深入参与Seed多模态模型及大语言模型后训练(SFT/RL)实践;
2、参与图像视频生成与统一建模,推动模型效果优化的能力,深度体验模型迭代与大规模实训;
3、实践Agent技术及架构、优化Agentic Foundation模型的工具调用能力及Long-Horizon Task能力,深入研究Agentic RL领域。

课题价值:本课题聚焦AGI时代多模态创作变革,依托全模态理解、AIGC生成与Agentic基座模型等前沿技术,构建高效智能的多媒体创作体系。通过持续训练与模型优化,不断突破内容生成与理解能力,推动AI创作从被动生成走向自主智能,兼具技术前沿性与产业落地价值,为下一代智能创作提供核心支撑。
包括英文材料
大模型+
Prompt+
还有更多 •••
相关职位

logo of xiaohongshu
校招AIGC算法

目前主流的素材混剪能力主要依赖于素材的端内容理解、表征匹配、高光检测等能力帮助一键完成整个视频剪辑过程,偏模板化,且预定义较为死板,无法支持更丰富的信息量注入,以及用户自主输入剪辑要求。 本课题希望通过大语言模型的语义指令解析能力,开放基于可自定义prompt的视频编辑能力,通过指令分解、协同主题文案生成的方式,帮助完成带有故事感文案生成能力的视频剪辑功能。主要的技术难点包括: 1、多模态理解与表征:需要模型能够深入理解不同模态内容(视频片段、图像、音频)的语义和上下文; 2、时序理解与编辑:视频混剪需要理解时序信息,包括情节发展、节奏感、转场点等; 3、文案生成和改写:可自定义主题、风格的素材文案生成能力。

更新于 2026-03-24北京|杭州|上海
logo of xiaohongshu
实习内容理解

1. 负责小红书站内搜索广告智能创意,在搜索场景下对小红书站内广告文案、视频、图片等素材进行内容理解,并生成投放高竞争力素材,提高转换效率。 2. 负责广告创作平台的算法能力优化,利用算法能力为广告主提供投前、投中、投后各类洞察或者提效功能。 3. 追踪业界创意、多模态及Generative AI方向最新技术,落地应用并提升广告创意理解、自动生成和优化等场景的效果。

更新于 2026-02-02上海|北京
logo of aliyun
实习阿里云研究型实习

随着GPT-4o等全模态大模型的突破,多模态生成与交互技术正成为人工智能领域的核心竞争方向。但当前技术在多模态深度理解、长序列生成一致性、跨模态对齐精度、实时交互智能性等方面仍面临显著挑战。 本项目聚焦音频、视觉、文本的多模态融合场景,针对长序列生成、强化学习优化、跨模态推理、表征学习等关键技术进行攻关,旨在构建具备深度思考能力、高可控性、强交互性的新一代智能多模态系统,推动AI技术在音乐创作、实时对话、音视频生成等领域的产业化应用。

更新于 2025-04-07北京|杭州|上海
logo of bytedance
实习A227228

团队介绍:V-AI团队当前支持抖音直播、开放平台、V项目(AI分身/小火人等)业务方向,涵盖了自然语言处理、计算机视觉、图形学等技术领域,通过大模型技术来创造新的互动玩法、制作美术资产、提升研发运营效率等,当前已上线和开展中的项目包括直播大模型(助播/伴播/独播)、角色多模态对话大模型、研发智能助手、3D模型生成大模型、动作生成大模型等。 课题介绍: 背景:随着虚拟现实、增强现实、数字孪生等技术的快速应用,3D数字资产已成为构建沉浸式数字空间的核心要素。在影视动画、游戏开发、直播、社交等领域,3D模型与3D动作的需求呈现爆发式增长。然而,传统3D内容生产高度依赖人工建模与动作捕捉技术,存在效率低、成本高、创作门槛高等瓶颈,难以满足直播等场景中大规模、高保真、多样化、高频迭代的3D内容需求。近年来,以生成式人工智能(AIGC)为代表的大模型技术在2D图像与视频生成领域取得突破性进展,但在3D内容生成领域仍面临表征复杂、多模态数据稀缺、物理规律约束严格等难题。如何将大模型技术与3D生成任务深度融合,实现“文本/图像到3D模型”、“文本/语音到动作”的高质量生成,形成建模+驱动的一站式美术资产生成管线以适配直播场景下资产迭代速度快,品质要求高的需求是当前的重要研究内容。 课题挑战: 传统方法依赖人工建模工具或程序化生成算法,存在生成效率与创作自由度之间的固有矛盾。AI技术虽然能很好地弥补人工生成效率不足的问题,但仍然存在如下挑战 1. 表征困难:与一维文本和二维图像可以自然地实现结构化表征不同,3D模型由于其多模态(如几何、纹理、材质等)、结构复杂和高维度等特性,使得其表征更为复杂。而3D动作又与物理世界紧密相关,且动态复杂度高。因此,如何高效地表征3D几何形状和3D动作,同时确保高品质的生成,仍然是亟需突破的课题。 2. 生成困难:模型生成需同时保障结构完整性、拓扑合理性和细节丰富性;动作生成需兼顾运动多样性、物理约束与时空连续性。现有方法易出现模型畸变、贴图瑕疵、动作力度不足和多样性差等问题。 3. 数据不足:3D数据标注成本高、多模态对齐难度大,且现有公开数据集规模有限,导致大模型训练面临数据不足的问题;如何把相关模态数据(图像、视频)利用起来,提升3D模型和3D动作的生成品质也是当前的重大挑战。 4. 评估体系不完善:缺乏统一的3D生成质量量化指标,现有评价多依赖人工主观判断,难以客观衡量生成的几何精度、动作自然度与多模态语义一致性,因此建立完善、客观、可量化的评价体系是保障技术迭代的关键基石。 1、负责抖音、抖音直播及相关产品的大语言模型/多模态大模型/AIGC算法研发,如数字人、3D生成、动作生成、智能对话等相关工作; 2、负责关键场景的算法优化,构建高质量的模型和Agent系统,提升业务效果; 3、跟踪AI前沿技术进展,推动前沿技术的产品化落地。

更新于 2025-03-03上海