通义Token Foundry-万相Wan视频大模型编导和美学专家-北京/杭州

社招全职3年以上技术-游戏技术2026-07-10地点：北京 | 杭州状态：招聘

扫码手机上打开

任职要求

1. 对应领域（编导/摄影/视听/表演/动画/特效）的本科及以上学历，具备扎实的电影工业专业功底——能专业地评判"什么是好、为什么好"，并有能力将审美判断规则化、标准化。
2. 有电影、电视剧、动画电影等影视项目的实际从业经验，熟悉影视制作全流程中的专业标准与行业规范，了解前期拍摄到后期制作的关键质量节点。
3. 具备较强的逻辑抽象能力，能跨越"感性审美"与"结构化规范…

登录查看完整任职要求

微信扫码，1秒登录

工作职责

1. 负责Wan视频生成模型的美学效果设计与数据标准建设，参与模型后训练迭代循环，基于编导、视觉、视听、表演、动画、特效等专业领域知识，设计视频数据的标注维度、质量标准和分级体系，将感性审美判断转化为可执行的结构化规则。
2. 专业数据的收集工作，制定数据采集方向与分布平衡策略，参与标注员培训与质检，确保送入模型的每一条数据都有可靠的专业标签。熟练运用AI工具辅助标注规范撰写与标注，提升数据建设效率。
3. 搭建覆盖叙事结构、视觉语言、视听关系、角色表演、运动规律等多维度的模型评测体系，对Wan模型生成的视频样本进行专业级评审，定位各维度的能力缺陷，输出结构化的评估报告，形成"评估→缺陷定位→数据优化→模型迭代"的闭环。
4. 持续洞察AI行业前沿动态及影视行业技术趋势，深入分析视频生成模型的用户需求与能力边界，开展相关评测方向的前置探索与实验。
5. 与算法、工程、产品等团队深度协作，将专业领域意见以技术语言清晰传达，推动模型在叙事逻辑、光影质感、音画情绪协同、表演自然度、运动合理性等核心维度上持续提升。

📮 投递简历 ✨AI模拟面试

难度：

包括英文材料

学历+

AIGC+

还有更多 •••

登录查看完整学习资料

相关职位

Token Foundry-多模态世界模型前沿技术研究-万相Wan

社招2年以上

【部门介绍】随着大模型技术的飞速发展，理解和生成多模态数据（图像、视频、音频、3D素材等）的能力日益增强。目前，构建能够同时进行输入和输出的多模态世界模型已成为业界的研究热点，也是实现通用人工智能（AGI）的重要技术路径之一。万相Wan将持续在世界模型、原生多模态预训练、理解-生成融合范式、统一Tokenizer研究、人类反馈与强化学习等前沿技术方向上进行探索，始终追求在多模态世界模型领域的领先研究地位，致力于建立世界级的技术影响力。【工作内容】 1. 探索大规模多模态理解生成统一基础模型，包括但不限于：统一建模设计、高效模型结构设计、高效Scaling、视觉Tokenizer、多模态联合训练等。 2. 探索和突破多模态强化学习，包括但不限于：视觉CoT、面向复杂视觉设计任务的强化学习设计、基于用户反馈的在线自学习等。 3. 构建基于生成模型的真实世界渲染引擎，探索新的多模态交互范式，探索虚拟和真实世界的强化反馈链路设计。

更新于 2026-07-10北京|杭州

Token Foundry-模型训练/推理优化算法专家-万相Wan

社招3年以上

【部门介绍】随着大模型技术的飞速发展，理解和生成多模态数据（图像、视频、音频、3D素材等）的能力日益增强。目前，构建能够同时进行输入和输出的多模态世界模型已成为业界的研究热点，也是实现通用人工智能（AGI）的重要技术路径之一。万相Wan将持续在世界模型、原生多模态预训练、理解-生成融合范式、统一Tokenizer研究、人类反馈与强化学习等前沿技术方向上进行探索，始终追求在多模态世界模型领域的领先研究地位，致力于建立世界级的技术影响力。【职位描述】 1. 负责万相Wan多模态生成大模型研发，重点解决生成大模型的训练和推理效率问题。 2. 负责研发各种蒸馏加速算法，包括CFG蒸馏，推理步数蒸馏等。 3. 负责研发各种Training-free推理加速算法，不限于cache、量化、采样优化等策略。 4. 负责研发生成模型的高效训练架构，包括但不限于sparse/linear attention、时空独立建模、超分模块等策略。

更新于 2026-07-14北京|杭州

Token Foundry-多模态生成模型算法专家-万相Wan

社招3年以上

【部门介绍】随着大模型技术的飞速发展，理解和生成多模态数据（图像、视频、音频、3D素材等）的能力日益增强。目前，构建能够同时进行输入和输出的多模态世界模型已成为业界的研究热点，也是实现通用人工智能（AGI）的重要技术路径之一。万相Wan将持续在世界模型、原生多模态预训练、理解-生成融合范式、统一Tokenizer研究、人类反馈与强化学习等前沿技术方向上进行探索，始终追求在多模态世界模型领域的领先研究地位，致力于建立世界级的技术影响力。【工作内容】 1、负责原生多模态模型研究和开发，结合多模态能力（支持文本、图像、语音输入）实现复杂指令生成，包括但不限于文生图、图生图、文档生成、可控编辑等核心方向。 2、负责图像生成模型效果优化，探索扩散模型、自回归模型结构和策略优化等核心技术课题。 3、负责人类反馈与强化学习，聚焦于更加精细的RL算法设计，并基于万相用户反馈的RLHF图像生成质量提升。

更新于 2026-07-14北京|杭州

Token Foundry-云端Agent技术专家-北京/杭州

社招3年以上技术类-开发

1. 面向ToB行业场景（如AI手机等），设计并构建可扩展、高可用的Agent编排系统，支撑多模态交互系统中复杂任务的自动化执行。 2. 深度整合阿里集团内部丰富的Agent能力，同时对接第三方生态服务，打造统一的行业级Agent应用。 3. 制定标准化的工具描述协议、Agent接入规范与开发者工具链（SDK/CLI/调试平台），降低内外部生态伙伴的接入门槛。 4. 针对移动端等资源受限环境，优化Agent调用链路的性能、延迟与鲁棒性，支持离线、弱网、低功耗等边缘场景下的可靠运行。

更新于 2026-06-15北京|杭州