通义通义实验室-通义万相商业化产品经理-北京/杭州
任职要求
背景要求 教育背景:计算机科学、人工智能、电子信息等相关专业背景; 工作经验:2年以上模型或AI工具产品经验,视觉和视频模型经验的优先; 技术理解: 1. 深入理解视频图像AIGC技术原理,包括和不限于扩散模型、强化学习、视频生成、图像编辑等核心技术; 2. 熟悉云服务(AWS/Azure等)优先; 3.了解模型训练、推理优化、部署运维等全流程技术细…
工作职责
核心职责 产品规划与技术洞察 1. 持续跟踪全球视频图像AIGC领域的前沿技术进展,包括但不限于扩散模型、视频生成、多模态大模型、3D生成等方向; 2. 深入分析Veo3、Sora等主流视觉生成能力模型的演进趋势,评估其在企业级应用和创作中的可行性,以及有自己的思考和市场洞察; 3. 建立商业化产品的演进方向和市场选择以匹配模型快速发展的需要,满足对应客户的诉求下产品设计与商业化落地; 4. 负责ToB视频图像AIGC产品的全生命周期管理,从0到1构建产品体系,实现从技术demo到规模化商业化的跨越; 5. 深度理解企业客户需求,设计符合B端业务场景的AI解决方案,并产出对应的培训手册和评价体系; 6. 主导商业化策略制定,包括定价模型、客户分层和选型、商业模式等,确保产品具备清晰的商业价值和盈利模式; 7. 定期产出客户反馈以指导产品的迭代和商业覆盖策略跨团队协作。 跨团队协作 1. 与算法团队紧密合作,将前沿研究成果转化为可落地的产品功能,平衡技术先进性与工程可行性,交付可被行业广泛使用的产品; 2. 与前线销售及市场团队协作,建立从需求挖掘到客户交付的完整闭环,提升客户满意度和商业规模的增长数据驱动与效果优化; 3. 建立产品核心指标体系,通过数据驱动产品迭代优化; 4. 建立模型效果的评测体系以链接市场需求与创作要求; 5. 持续监控模型性能、用户体验、商业转化等关键指标,快速响应市场变化; 6. 定期输出商业化案例,形成可复制的成功模式。
随着大模型技术的飞速发展,理解和生成多模态数据(图像、视频、音频、3D素材等)的能力日益增强。目前,构建能够同时进行输入和输出的多模态世界模型已成为业界的研究热点,也是实现通用人工智能(AGI)的重要技术路径之一。 通义万相(Wan)将持续在世界模型、原生多模态预训练、理解-生成融合范式、统一Tokenizer研究、人类反馈与强化学习等前沿技术方向上进行探索,始终追求在多模态世界模型领域的领先研究地位,致力于建立世界级的技术影响力。 多模态世界模型前沿技术研究项目,团队在多个方向上进行探索(具体如下罗列),若你对以下一个或者多个课题感兴趣均欢迎投递: 1. 世界模型,包括但不限于:长视频生成、多模态交互式世界模型、实时音视频生成、生成驱动的世界渲染引擎、3D/4D生成。 2. 原生多模态预训练,包括但不限于:融合语言与图像理解生成统一的多模态模型、音视频融合的生成模型、高效多模态预训练算法。 3. 人类反馈与强化学习,包括但不限于:基于规则的强化学习策略、高效 DPO 与 PPO 算法设计、基于用户反馈的RLHF视频生成质量提升。 4. 统一Tokenizer研究,包括但不限于:适用于图像、视频、音频等多种模态生成和理解的统一Tokenizer、提高多模态模型的泛化能力和效率。 5. 大模型训练/推理优化,包括但不限于:模型蒸馏、模型剪枝、attention计算近似等高效训练加速策略。
【部门介绍】 随着大模型技术的飞速发展,理解和生成多模态数据(图像、视频、音频、3D素材等)的能力日益增强。目前,构建能够同时进行输入和输出的多模态世界模型已成为业界的研究热点,也是实现通用人工智能(AGI)的重要技术路径之一。 通义万相(Wan)将持续在世界模型、原生多模态预训练、理解-生成融合范式、统一Tokenizer研究、人类反馈与强化学习等前沿技术方向上进行探索,始终追求在多模态世界模型领域的领先研究地位,致力于建立世界级的技术影响力。 【工作内容】 1、负责原生多模态模型研究和开发,结合多模态能力(支持文本、图像、语音输入)实现复杂指令生成,包括但不限于文生图、图生图、文档生成、可控编辑等核心方向。 2、负责图像生成模型效果优化,探索扩散模型、自回归模型结构和策略优化等核心技术课题。 3、负责人类反馈与强化学习,聚焦于更加精细的RL算法设计,并基于万相用户反馈的RLHF图像生成质量提升。
【部门介绍】 随着大模型技术的飞速发展,理解和生成多模态数据(图像、视频、音频、3D素材等)的能力日益增强。目前,构建能够同时进行输入和输出的多模态世界模型已成为业界的研究热点,也是实现通用人工智能(AGI)的重要技术路径之一。 通义万相(Wan)将持续在世界模型、原生多模态预训练、理解-生成融合范式、统一Tokenizer研究、人类反馈与强化学习等前沿技术方向上进行探索,始终追求在多模态世界模型领域的领先研究地位,致力于建立世界级的技术影响力。 【工作内容】 1. 探索大规模多模态理解生成统一基础模型,包括但不限于:统一建模设计、高效模型结构设计、高效Scaling、视觉Tokenizer、多模态联合训练等。 2. 探索和突破多模态强化学习,包括但不限于:视觉CoT、面向复杂视觉设计任务的强化学习设计、基于用户反馈的在线自学习等。 3. 构建基于生成模型的真实世界渲染引擎,探索新的多模态交互范式,探索虚拟和真实世界的强化反馈链路设计。
【部门介绍】 随着大模型技术的飞速发展,理解和生成多模态数据(图像、视频、音频、3D素材等)的能力日益增强。目前,构建能够同时进行输入和输出的多模态世界模型已成为业界的研究热点,也是实现通用人工智能(AGI)的重要技术路径之一。 通义万相(Wan)将持续在世界模型、原生多模态预训练、理解-生成融合范式、统一Tokenizer研究、人类反馈与强化学习等前沿技术方向上进行探索,始终追求在多模态世界模型领域的领先研究地位,致力于建立世界级的技术影响力。 【职位描述】 1. 负责通义万相多模态生成大模型研发,重点解决生成大模型的训练和推理效率问题。 2. 负责研发各种蒸馏加速算法,包括CFG蒸馏,推理步数蒸馏等。 3. 负责研发各种Training-free推理加速算法,不限于cache、量化、采样优化等策略。 4. 负责研发生成模型的高效训练架构,包括但不限于sparse/linear attention、时空独立建模、超分模块等策略。