字节跳动多模态创作大模型研究-智能创作
任职要求
1、2027届毕业,获得博士学位,计算机、人工智能等相关专业优先; 2、具备一个或多个领域的研究、实践经验,包括但不限于以下方向; 1)对多模态理解/Omni-modal模型/LLM的Post-Training有深入理解与实践经验,具备基于基础模型进行图像视频Captioning/Prompt Rephraser/文本创作等任务迭代与优化的潜力; 2)对图像生成/视频生成/多模态理解生成统一建模等领域有深入研究…
工作职责
团队介绍:智能创作团队是字节跳动的创作场景业务中台,以AI赋能创造,致力于通过AI技术降低创作门槛,赋能视觉内容生产与创作的智能化升级。团队深度支持抖音、剪映、即梦、豆包、商业化等多个业务线,持续深耕图片与视频生成、智能剪辑、数字人、特效等多个业务场景,通过由AI驱动的智能化工具与算法,为用户提供了更智能、更便捷、更丰富的创作体验,助力普通用户轻松实现高质量内容创作,同时为专业创作者提供强大的技术支持,推动内容生态的繁荣与创新。 课题介绍:随着AGI大模型技术发展,AI多模态图文视频创作范式迎来深刻变革,基于生成式AI与Agent技术的创作解决方案不断涌现。多模态创作大模型依托全模态内容理解、AIGC图像视频生成及Agentic基座模型等前沿技术,构建灵活高效、业界领先的多媒体内容创作方式。通过Continual Training、Post-Training等方式,持续提升模型在内容理解、图像视频生成的能力上限,端到端优化基础模型在创作Agent场景下的整体效果。 课题挑战: 1、深入参与Seed多模态模型及大语言模型后训练(SFT/RL)实践; 2、参与图像视频生成与统一建模,推动模型效果优化的能力,深度体验模型迭代与大规模实训; 3、实践Agent技术及架构、优化Agentic Foundation模型的工具调用能力及Long-Horizon Task能力,深入研究Agentic RL领域。 课题价值:本课题聚焦AGI时代多模态创作变革,依托全模态理解、AIGC生成与Agentic基座模型等前沿技术,构建高效智能的多媒体创作体系。通过持续训练与模型优化,不断突破内容生成与理解能力,推动AI创作从被动生成走向自主智能,兼具技术前沿性与产业落地价值,为下一代智能创作提供核心支撑。
1. 负责AI技术在游戏场景内的应用,例如智能NPC、游戏AI玩法、剧本创作等。 2. 和上下游保持较好的沟通和协作,确保项目的推进和上线。 3. 具备较强的自驱力,追踪前沿的大模型相关技术,并思考和探索AI技术和游戏的结合点。
部门介绍: 我们是阿里巴巴-高德的大模型和AIGC核心部门,承接公司的重点业务,包括本地生活场景中的广告创意、商品理解、内容智能创作和分发,出行场景的AI智能化等,研究领域广泛,包括但不限于多模态大模型、大语言模型、图像生成、图像编辑美化、视频生成和视频理解等,团队技术氛围好,成长空间大,拥有充足的研发资源和大量的业务应用数据,团队多篇论文入选paper digest最有影响力论文名单。团队聚焦于本地生活领域的广告和内容智能创作方向,技术栈包括,多模态大模型的理解和生成,视觉创意的可控生成,图像生成和编辑。通过在前沿技术领域的深耕,推动技术在内容智能创作(扫街榜)、广告视觉创意生成和多场景(搜推等)的内容的图文生成等方向的应用。我们正在寻找对技术有极致热情和专注的同学,在创建业务价值的同时,对前沿技术做创新的探索,共同做出有影响力的工作。 岗位职责: 1、跟踪并深入研究生成式AI领域的前沿技术,负责多模态媒体内容的理解、图像编辑以及图像生成、统一多模态理解和生成、强化学习等基础能力的研究和探索; 2、与团队成员合作,解决在本地生活领域的内容智能创作(扫街榜)以及广告创意等的应用中的算法难点,共同推动技术在实际业务中的应用和落地。
1、商业化LLM:负责大语言模型(LLM)的前沿技术探索和全链路研发,包括但不限于抗知识遗忘的继续预训练、指令微调、RLHF等,结合广告业务场景,研发基于大语言模型下游应用,包括但不限于营销场景下的语义理解、信息抽取、脚本生成、对话系统等,提升广告投放系统的智能化能力; 2、广告AIGC:负责以扩散模型等为代表的前沿图文/短视频的生成式AI在内容创作方面的算法研发和落地,包括但不限于text to image, text to video, image and video editting等,结合文本/图像/视频/音频等多模态匹配技术、广告投放优化策略和模型,优化AIGC系统生成效果和广告投放效果; 3、多模态大模型for推荐:负责视频多模态大模型的最新研究进展和相关技术实现(视频理解、视频内容问答、视频caption等),提出并优化最前沿算法,将多模态等基础大模型的表征学习与广告业务相结合,提升广告分发效率。