字节跳动AI Agent研发实习生-智能创作
任职要求
1、2026届硕士及以上学位在读,计算机、软件工程等相关专业优先; 2、动手能力强,精通Python、Java、C++、Go其中一种或多种编程语言,具备良好的软件框架和应用设计能力;深入理解主流机器学习框架,如PyTorch、TensorFlow,对Transformer架构有深入理解,熟练掌握Lora训练加分; 3、深入了解AI Agents技术栈,掌握LangChain/Llamaindex等LLM开发工具框架,有丰富的智能体开发和Prompt Engineering调优经验,Multi-Agent Syst…
工作职责
ByteIntern:面向2026届毕业生(2025年9月-2026年8月期间毕业),为符合岗位要求的同学提供转正机会。 团队介绍:智能创作团队是字节跳动创作场景业务中台,负责了抖音、剪映等产品的技术和业务研发,涵盖了计算机视觉、深度学习、高性能计算、图形学、特效引擎等技术领域,并以多种形式向公司内部各业务线提供业界前沿的内容理解、内容创作、互动体验与消费的能力和行业解决方案,同时通过火山引擎为企业客户提供服务。 1、设计和实现基于LLM的智能体架构,包括任务规划、对话管理、意图识别、流程工程等; 2、设计和实现多模态Agent,支持文本、语音、图像等多种输入/输出形式的处理; 3、推动AI Agent在架构和性能上的持续优化,提升Agent对用户理解能力和响应的准确性; 4、开发和维护智能体的后端服务,确保系统的稳定性和可扩展性; 5、跟踪并研究行业前沿AI算法,持续提升AI Agent的技术水平; 6、编写必要的技术文档,包括API接口说明、核心算法设计与代码开发。

职位概述: 参与影像类AI Agent中台产品的建设与优化,支持公司各业务线在智能影像生成、编辑与智能创作场景下的Agent搭建与效果评估。协助产品经理推进AI Agent能力的持续迭代,探索AI与影像创作结合的创新路径。 ● 岗位价值 在AI Agent中台体系中实践从算法到业务落地的完整链路,学习多业务协同下的AI产品体系设计与实现逻辑,提升AI影像与Agent交互的理解与实操经验。 工作职责 ● 跟进AIAgent相关的竞品调研与能力对标分析,整理行业动态与最佳实践; ● 支持公司各业务线Agent搭建与优化; ● 输出需求文档与产品原型,跟进开发与测试进展; ● 跟进算法效果迭代,收集反馈并提出优化方案; ● Agent能力评估与需求分析,推动智能影像生成与编辑体验优化; ● 定期分析业务与用户数据,整理产品迭代日志与效果验证报告。
团队介绍:智能创作团队是字节跳动的创作场景业务中台,以AI赋能创造,致力于通过AI技术降低创作门槛,赋能视觉内容生产与创作的智能化升级。团队深度支持抖音、剪映、即梦、豆包、商业化等多个业务线,持续深耕图片与视频生成、智能剪辑、数字人、特效等多个业务场景,通过由AI驱动的智能化工具与算法,为用户提供了更智能、更便捷、更丰富的创作体验,助力普通用户轻松实现高质量内容创作,同时为专业创作者提供强大的技术支持,推动内容生态的繁荣与创新。 课题介绍: 背景: 视频创作是内容平台生态的最关键环节。随着AGI大模型技术的发展,行业内AI视频创作Workflow不断革新,传统的视频剪辑工具面临严峻行业挑战。AI Native视频创作大模型技术,旨在研发一套基于大模型的视频创作系统,来改善用户创作过程中灵感匮乏、创作提质提效及降低门槛使人人都是优质创作者等难点问题。应用上,可落地支持抖音、剪映Capcut、Flow等业务的图片与视频创作工具,形成公司关键业务场景的核心生态壁垒。 课题挑战: 1、中长视频多模态理解能力:创作场景需要对用户素材充分理解,因此大模型需要对输入视频的画面、声音及语音等能充分理解,具备素材剪辑处理的通用理解能力; 2、创作领域专业Agent能力: 大模型需要具备创作领域AGI的潜力,对于营销、UGC、PGC等不同创作场景,模型需要具备优质视频创作知识储备,能基于原子能力Tools规划合理的Action Sequence完成创作; 3、多模态输出能力:在视频创作领域,需要进行视频效果包装,因此模型需要具备输出音效/声音/文字贴纸/转场特效等能力; 4、高效率模型推理:由于输入视频时长较长,任务复杂,考虑应用落地成本,模型在处理长Context的推理效率与实际效果的Trade-off依赖技术突破。
团队介绍:智能创作团队是字节跳动的创作场景业务中台,以AI赋能创造,致力于通过AI技术降低创作门槛,赋能视觉内容生产与创作的智能化升级。团队深度支持抖音、剪映、即梦、豆包、商业化等多个业务线,持续深耕图片与视频生成、智能剪辑、数字人、特效等多个业务场景,通过由AI驱动的智能化工具与算法,为用户提供了更智能、更便捷、更丰富的创作体验,助力普通用户轻松实现高质量内容创作,同时为专业创作者提供强大的技术支持,推动内容生态的繁荣与创新。 课题介绍: 背景: 视频创作是内容平台生态的最关键环节。随着AGI大模型技术的发展,行业内AI视频创作Workflow不断革新,传统的视频剪辑工具面临严峻行业挑战。AI Native视频创作大模型技术,旨在研发一套基于大模型的视频创作系统,来改善用户创作过程中灵感匮乏、创作提质提效及降低门槛使人人都是优质创作者等难点问题。应用上,可落地支持抖音、剪映Capcut、Flow等业务的图片与视频创作工具,形成公司关键业务场景的核心生态壁垒。 课题挑战: 1、中长视频多模态理解能力:创作场景需要对用户素材充分理解,因此大模型需要对输入视频的画面、声音及语音等能充分理解,具备素材剪辑处理的通用理解能力; 2、创作领域专业Agent能力: 大模型需要具备创作领域AGI的潜力,对于营销、UGC、PGC等不同创作场景,模型需要具备优质视频创作知识储备,能基于原子能力Tools规划合理的Action Sequence完成创作; 3、多模态输出能力:在视频创作领域,需要进行视频效果包装,因此模型需要具备输出音效/声音/文字贴纸/转场特效等能力; 4、高效率模型推理:由于输入视频时长较长,任务复杂,考虑应用落地成本,模型在处理长Context的推理效率与实际效果的Trade-off依赖技术突破。
团队介绍:智能创作团队是字节跳动的创作场景业务中台,以AI赋能创造,致力于通过AI技术降低创作门槛,赋能视觉内容生产与创作的智能化升级。团队深度支持抖音、剪映、即梦、豆包、商业化等多个业务线,持续深耕图片与视频生成、智能剪辑、数字人、特效等多个业务场景,通过由AI驱动的智能化工具与算法,为用户提供了更智能、更便捷、更丰富的创作体验,助力普通用户轻松实现高质量内容创作,同时为专业创作者提供强大的技术支持,推动内容生态的繁荣与创新。 课题介绍: 背景: 视频创作是内容平台生态的最关键环节。随着AGI大模型技术的发展,行业内AI视频创作Workflow不断革新,传统的视频剪辑工具面临严峻行业挑战。AI Native视频创作大模型技术,旨在研发一套基于大模型的视频创作系统,来改善用户创作过程中灵感匮乏、创作提质提效及降低门槛使人人都是优质创作者等难点问题。应用上,可落地支持抖音、剪映Capcut、Flow等业务的图片与视频创作工具,形成公司关键业务场景的核心生态壁垒。 课题挑战: 1、中长视频多模态理解能力:创作场景需要对用户素材充分理解,因此大模型需要对输入视频的画面、声音及语音等能充分理解,具备素材剪辑处理的通用理解能力; 2、创作领域专业Agent能力:大模型需要具备创作领域AGI的潜力,对于营销、UGC、PGC等不同创作场景,模型需要具备优质视频创作知识储备,能基于原子能力Tools规划合理的Action Sequence完成创作; 3、多模态输出能力:在视频创作领域,需要进行视频效果包装,因此模型需要具备输出音效/声音/文字贴纸/转场特效等能力; 4、高效率模型推理:由于输入视频时长较长,任务复杂,考虑应用落地成本,模型在处理长Context的推理效率与实际效果的Trade-off依赖技术突破。