通义通义大模型事业部-万相Wan视频大模型编导和美学专家-北京/杭州
任职要求
1. 对应领域(编导/摄影/视听/表演/动画/特效)的本科及以上学历,具备扎实的电影工业专业功底——能专业地评判"什么是好、为什么好",并有能力将审美判断规则化、标准化。
2. 有电影、电视剧、动画电影等影视项目的实际从业经验,熟悉影视制作全流程中的专业标准与行业规范,了解前期拍摄到后期制作的关键质量节点。
3. 具备较强的逻辑抽象能力,能跨越"感性审美"与"结构化规范…工作职责
1. 负责Wan视频生成模型的美学效果设计与数据标准建设,参与模型后训练迭代循环,基于编导、视觉、视听、表演、动画、特效等专业领域知识,设计视频数据的标注维度、质量标准和分级体系,将感性审美判断转化为可执行的结构化规则。 2. 专业数据的收集工作,制定数据采集方向与分布平衡策略,参与标注员培训与质检,确保送入模型的每一条数据都有可靠的专业标签。熟练运用AI工具辅助标注规范撰写与标注,提升数据建设效率。 3. 搭建覆盖叙事结构、视觉语言、视听关系、角色表演、运动规律等多维度的模型评测体系,对Wan模型生成的视频样本进行专业级评审,定位各维度的能力缺陷,输出结构化的评估报告,形成"评估→缺陷定位→数据优化→模型迭代"的闭环。 4. 持续洞察AI行业前沿动态及影视行业技术趋势,深入分析视频生成模型的用户需求与能力边界,开展相关评测方向的前置探索与实验。 5. 与算法、工程、产品等团队深度协作,将专业领域意见以技术语言清晰传达,推动模型在叙事逻辑、光影质感、音画情绪协同、表演自然度、运动合理性等核心维度上持续提升。
【部门介绍】 随着大模型技术的飞速发展,理解和生成多模态数据(图像、视频、音频、3D素材等)的能力日益增强。目前,构建能够同时进行输入和输出的多模态世界模型已成为业界的研究热点,也是实现通用人工智能(AGI)的重要技术路径之一。 万相Wan将持续在世界模型、原生多模态预训练、理解-生成融合范式、统一Tokenizer研究、人类反馈与强化学习等前沿技术方向上进行探索,始终追求在多模态世界模型领域的领先研究地位,致力于建立世界级的技术影响力。 【职位描述】 1. 负责通义万相多模态生成大模型研发,重点解决生成大模型的训练和推理效率问题。 2. 负责研发各种蒸馏加速算法,包括CFG蒸馏,推理步数蒸馏等。 3. 负责研发各种Training-free推理加速算法,不限于cache、量化、采样优化等策略。 4. 负责研发生成模型的高效训练架构,包括但不限于sparse/linear attention、时空独立建模、超分模块等策略。
【部门介绍】 随着大模型技术的飞速发展,理解和生成多模态数据(图像、视频、音频、3D素材等)的能力日益增强。目前,构建能够同时进行输入和输出的多模态世界模型已成为业界的研究热点,也是实现通用人工智能(AGI)的重要技术路径之一。 万相Wan将持续在世界模型、原生多模态预训练、理解-生成融合范式、统一Tokenizer研究、人类反馈与强化学习等前沿技术方向上进行探索,始终追求在多模态世界模型领域的领先研究地位,致力于建立世界级的技术影响力。 【工作内容】 1. 探索大规模多模态理解生成统一基础模型,包括但不限于:统一建模设计、高效模型结构设计、高效Scaling、视觉Tokenizer、多模态联合训练等。 2. 探索和突破多模态强化学习,包括但不限于:视觉CoT、面向复杂视觉设计任务的强化学习设计、基于用户反馈的在线自学习等。 3. 构建基于生成模型的真实世界渲染引擎,探索新的多模态交互范式,探索虚拟和真实世界的强化反馈链路设计。
随着大模型技术的飞速发展,理解和生成多模态数据(图像、视频、音频、3D素材等)的能力日益增强。目前,构建能够同时进行输入和输出的多模态世界模型已成为业界的研究热点,也是实现通用人工智能(AGI)的重要技术路径之一。 通义万相(Wan)将持续在世界模型、原生多模态预训练、理解-生成融合范式、统一Tokenizer研究、人类反馈与强化学习等前沿技术方向上进行探索,始终追求在多模态世界模型领域的领先研究地位,致力于建立世界级的技术影响力。 多模态世界模型前沿技术研究项目,团队在多个方向上进行探索(具体如下罗列),若你对以下一个或者多个课题感兴趣均欢迎投递: 1. 世界模型,包括但不限于:长视频生成、多模态交互式世界模型、实时音视频生成、生成驱动的世界渲染引擎、3D/4D生成。 2. 原生多模态预训练,包括但不限于:融合语言与图像理解生成统一的多模态模型、音视频融合的生成模型、高效多模态预训练算法。 3. 人类反馈与强化学习,包括但不限于:基于规则的强化学习策略、高效 DPO 与 PPO 算法设计、基于用户反馈的RLHF视频生成质量提升。 4. 统一Tokenizer研究,包括但不限于:适用于图像、视频、音频等多种模态生成和理解的统一Tokenizer、提高多模态模型的泛化能力和效率。 5. 大模型训练/推理优化,包括但不限于:模型蒸馏、模型剪枝、attention计算近似等高效训练加速策略。
【部门介绍】 随着大模型技术的飞速发展,理解和生成多模态数据(图像、视频、音频、3D素材等)的能力日益增强。目前,构建能够同时进行输入和输出的多模态世界模型已成为业界的研究热点,也是实现通用人工智能(AGI)的重要技术路径之一。 通义万相(Wan)将持续在世界模型、原生多模态预训练、理解-生成融合范式、统一Tokenizer研究、人类反馈与强化学习等前沿技术方向上进行探索,始终追求在多模态世界模型领域的领先研究地位,致力于建立世界级的技术影响力。 【工作内容】 1、负责原生多模态模型研究和开发,结合多模态能力(支持文本、图像、语音输入)实现复杂指令生成,包括但不限于文生图、图生图、文档生成、可控编辑等核心方向。 2、负责图像生成模型效果优化,探索扩散模型、自回归模型结构和策略优化等核心技术课题。 3、负责人类反馈与强化学习,聚焦于更加精细的RL算法设计,并基于万相用户反馈的RLHF图像生成质量提升。