字节跳动多模态创作大模型研究-智能创作

校招全职A108105A2026-04-15地点：深圳状态：招聘

扫码手机上打开

任职要求

1、2027届毕业，获得博士学位，计算机、人工智能等相关专业优先；
2、具备一个或多个领域的研究、实践经验，包括但不限于以下方向；
1）对多模态理解/Omni-modal模型/LLM的Post-Training有深入理解与实践经验，具备基于基础模型进行图像视频Captioning/Prompt Rephraser/文本创作等任务迭代与优化的潜力；
2）对图像生成/视频生成/多模态理解生成统一建模等领域有深入研究…

登录查看完整任职要求

微信扫码，1秒登录

工作职责

团队介绍：智能创作团队是字节跳动的创作场景业务中台，以AI赋能创造，致力于通过AI技术降低创作门槛，赋能视觉内容生产与创作的智能化升级。团队深度支持抖音、剪映、即梦、豆包、商业化等多个业务线，持续深耕图片与视频生成、智能剪辑、数字人、特效等多个业务场景，通过由AI驱动的智能化工具与算法，为用户提供了更智能、更便捷、更丰富的创作体验，助力普通用户轻松实现高质量内容创作，同时为专业创作者提供强大的技术支持，推动内容生态的繁荣与创新。

课题介绍：随着AGI大模型技术发展，AI多模态图文视频创作范式迎来深刻变革，基于生成式AI与Agent技术的创作解决方案不断涌现。多模态创作大模型依托全模态内容理解、AIGC图像视频生成及Agentic基座模型等前沿技术，构建灵活高效、业界领先的多媒体内容创作方式。通过Continual Training、Post-Training等方式，持续提升模型在内容理解、图像视频生成的能力上限，端到端优化基础模型在创作Agent场景下的整体效果。

课题挑战：
1、深入参与Seed多模态模型及大语言模型后训练（SFT/RL）实践；
2、参与图像视频生成与统一建模，推动模型效果优化的能力，深度体验模型迭代与大规模实训；
3、实践Agent技术及架构、优化Agentic Foundation模型的工具调用能力及Long-Horizon Task能力，深入研究Agentic RL领域。

课题价值：本课题聚焦AGI时代多模态创作变革，依托全模态理解、AIGC生成与Agentic基座模型等前沿技术，构建高效智能的多媒体创作体系。通过持续训练与模型优化，不断突破内容生成与理解能力，推动AI创作从被动生成走向自主智能，兼具技术前沿性与产业落地价值，为下一代智能创作提供核心支撑。

📮 投递简历 ✨AI模拟面试

难度：

包括英文材料

学历+

大模型+

还有更多 •••

登录查看完整学习资料

相关职位

文本大模型算法工程师

社招网易游戏（雷火）

1. 负责AI技术在游戏场景内的应用，例如智能NPC、游戏AI玩法、剧本创作等。 2. 和上下游保持较好的沟通和协作，确保项目的推进和上线。 3. 具备较强的自驱力，追踪前沿的大模型相关技术，并思考和探索AI技术和游戏的结合点。

更新于 2025-07-22杭州

高德-多模态理解和生成算法专家-广告智能创作

社招3年以上技术类-算法

部门介绍：我们是阿里巴巴-高德的大模型和AIGC核心部门，承接公司的重点业务，包括本地生活场景中的广告创意、商品理解、内容智能创作和分发，出行场景的AI智能化等，研究领域广泛，包括但不限于多模态大模型、大语言模型、图像生成、图像编辑美化、视频生成和视频理解等，团队技术氛围好，成长空间大，拥有充足的研发资源和大量的业务应用数据，团队多篇论文入选paper digest最有影响力论文名单。团队聚焦于本地生活领域的广告和内容智能创作方向，技术栈包括，多模态大模型的理解和生成，视觉创意的可控生成，图像生成和编辑。通过在前沿技术领域的深耕，推动技术在内容智能创作（扫街榜）、广告视觉创意生成和多场景（搜推等）的内容的图文生成等方向的应用。我们正在寻找对技术有极致热情和专注的同学，在创建业务价值的同时，对前沿技术做创新的探索，共同做出有影响力的工作。岗位职责： 1、跟踪并深入研究生成式AI领域的前沿技术，负责多模态媒体内容的理解、图像编辑以及图像生成、统一多模态理解和生成、强化学习等基础能力的研究和探索； 2、与团队成员合作，解决在本地生活领域的内容智能创作（扫街榜）以及广告创意等的应用中的算法难点，共同推动技术在实际业务中的应用和落地。

更新于 2025-11-03北京

广告大模型与AIGC算法专家

社招3-5年J0011

1、商业化LLM：负责大语言模型（LLM）的前沿技术探索和全链路研发，包括但不限于抗知识遗忘的继续预训练、指令微调、RLHF等，结合广告业务场景，研发基于大语言模型下游应用，包括但不限于营销场景下的语义理解、信息抽取、脚本生成、对话系统等，提升广告投放系统的智能化能力； 2、广告AIGC：负责以扩散模型等为代表的前沿图文/短视频的生成式AI在内容创作方面的算法研发和落地，包括但不限于text to image, text to video, image and video editting等，结合文本/图像/视频/音频等多模态匹配技术、广告投放优化策略和模型，优化AIGC系统生成效果和广告投放效果； 3、多模态大模型for推荐：负责视频多模态大模型的最新研究进展和相关技术实现（视频理解、视频内容问答、视频caption等），提出并优化最前沿算法，将多模态等基础大模型的表征学习与广告业务相结合，提升广告分发效率。

更新于 2026-03-26北京

多模态算法工程师-社区算法

社招内容理解

1. 负责计算机视觉&多模态相关算法研发，面向但不限于：多模态内容理解、多模态检索、多模态目标检测、分割、Metric Learning、主体识别、图像编辑、图像增强、文生图等； 2. 负责智能编辑、智能生成、一键成片等创作工具的研发与应用，达到业界领先的性能指标； 3. 负责相关算法和系统的持续迭代和进化；同时能够深入小红书发布业务场景，结合实际需求进行技术落地和创新； 4. 完成基于多模态大模型的算法升级，快速实现以及大规模工业化部署，参与创新性算法的研究以及开发工作；

更新于 2026-04-08上海|北京