通义研究型实习生-原生多模态视频生成技术研究
任职要求
1. 具备扎实的多模态或者机器学习算法基础,有成果发表在CVPR,NeurIPS,ICML,ICLR,TPAMI,IJCV等顶级会议期刊者优先。 2. 熟练掌握C/C++, Python等至少一门语言,ACM/ICPC,topcoder等编程比赛获奖者优先。 3. 乐于沟通、分享、交流、有激情、责任心强,具备良好的团队合作、沟通能力。
工作职责
本项目旨在深入探索原生多模态视频生成的前沿技术,构建从内容生成到智能应用的完整技术闭环。具体研究课题包括但不限于: 1. 长视频生成: 重点研究能够生成分钟级长视频的算法,攻克生成过程中的稳定性与时序一致性难题,实现流畅、高质量的视频流输出。 2. 可控视频编辑与下游应用 : 开发基于自然语言、图像示例等指令的精细化视频编辑技术,实现对视频中对象、场景、风格的精准、一致性操控。 3. 人类反馈与强化学习: 包括但不限于基于规则的强化学习策略、高效 DPO 与 PPO 算法设计、基于用户反馈的RLHF 视频生成质量提升。
研究领域: 人工智能 项目简介: 原生多模态模型在设计时原生支持多模态,通过在音频、视频、图片、文本等多模态序列上进行预训练,可以理解、生成 或 操作 不同模态组合 ,原生多模态也被认为是继NLP大模型后实现AGI的必经之路。本课题主要研究原生多模态的核心问题, 包括但不限于: 1. 研究多个模态进行混合训练并实现各模态各任务均衡的方法 2. 研究理解和生成任务的统一框架,实现理解和生成任务的相互促进 3. 提升多模态in-context能力机制及提升多模态in-context learning能力
多模态世界模型前沿技术研究项目,旨在进行如下课题研究: 1. 世界模型,包括但不限于:长视频生成、多模态交互式世界模型、实时音视频生成。 2. 原生多模态预训练,包括但不限于:融合语言与图像理解生成统一的多模态模型、音视频融合的生成模型、高效多模态预训练算法。 3. 人类反馈与强化学习,包括但不限于:基于规则的强化学习策略、高效 DPO 与 PPO 算法设计、基于万相用户反馈的RLHF 视频生成质量提升。
研究领域: 人工智能 项目简介: AIGC持续发展,以人为中心的图像、视频、语音等模型的生成能力愈发成熟,最近动动嘴就能PS、图像、视频及语音等产品例如25年3月发布的谷歌的Gemini 2.0Flash以及字节的SeedEdit等产品,迅速走进大众,AIGC等对抗愈发激烈且常态化。目前防控手段都是单模态进行防控,所有模态All-in-one的omini模型目前尚未有好的工作,同时结合类似deepseek多模态推理解决泛化能力、文本之外基于基于多模态生成式的视觉Reward去打造新的左右互搏式LMM范式,以及世界模型思路下去预测未来攻击的方案,都是当下可以探索的思路,目标是围绕AI信息原生可信打造成安全特色能力。