logo of tongyi

通义原生多模态世界模型算法工程师

校招全职通义2026届秋季校园招聘地点:北京 | 杭州状态:招聘

任职要求


1. 来自全球Top高校计算机科学、人工智能、数学、物理或相关领域应届博士/顶尖硕士毕业生。
2. 在国际顶级计算机会议/期刊(如NeurIPSCVPRICLRECCV、TPAMI等)以一作身份发表过多篇论文,或在开源社区、竞赛中展示出引领性的研究成果。
3. 对Diffusion Models、GANs、VAEs等生成模型有深入理解,熟悉基于Transformer架构的自回归生成模型、DiT等扩散模型;在语言-视觉联合建模、图文/视频生成任务方面有系统性理解,熟悉CLIP/VLM 等跨模态模型架构,并至少在生成模型或语言-视觉联…
登录查看完整任职要求
微信扫码,1秒登录

工作职责


随着大模型技术的飞速发展,理解和生成多模态数据(图像、视频、音频、3D素材等)的能力日益增强。目前,构建能够同时进行输入和输出的多模态世界模型已成为业界的研究热点,也是实现通用人工智能(AGI)的重要技术路径之一。
通义万相(Wan)将持续在世界模型、原生多模态预训练、理解-生成融合范式、统一Tokenizer研究、人类反馈与强化学习等前沿技术方向上进行探索,始终追求在多模态世界模型领域的领先研究地位,致力于建立世界级的技术影响力。

多模态世界模型前沿技术研究项目,团队在多个方向上进行探索(具体如下罗列),若你对以下一个或者多个课题感兴趣均欢迎投递:
1. 世界模型,包括但不限于:长视频生成、多模态交互式世界模型、实时音视频生成、生成驱动的世界渲染引擎、3D/4D生成。
2. 原生多模态预训练,包括但不限于:融合语言与图像理解生成统一的多模态模型、音视频融合的生成模型、高效多模态预训练算法。
3. 人类反馈与强化学习,包括但不限于:基于规则的强化学习策略、高效 DPO 与 PPO 算法设计、基于用户反馈的RLHF视频生成质量提升。
4. 统一Tokenizer研究,包括但不限于:适用于图像、视频、音频等多种模态生成和理解的统一Tokenizer、提高多模态模型的泛化能力和效率。
5. 大模型训练/推理优化,包括但不限于:模型蒸馏、模型剪枝、attention计算近似等高效训练加速策略。
包括英文材料
NeurIPS+
CVPR+
ECCV+
Transformer+
还有更多 •••
相关职位

logo of horizon
校招算法序列

1. 负责探索自动驾驶世界模型的研发,并将该模型落地到下一代自动驾驶系统中; 2. 参与面向自动驾驶的原生多模态大模型系统的算法研发; 3. 深入理解自动驾驶的应用场景,针对研发的世界模型,构建完备的模型评估链路和标准;

更新于 2025-07-04北京|上海|香港
logo of alibaba
社招1年以上技术类-算法

Accio是阿里巴巴国际数字商业集团阿里国际站内部孵化的一款战略级AI原生应用产品,也是全球首个B2B AI Search Agent,通过持续探索Agent、LLM、VLM、RL、Memory、Reasoning、AI Search等前沿技术,自研基座、Agent系统以及AI Search系统,实现全球B2B跨境贸易跨越式发展。 1、参与开发和优化新一代多模态原生AI搜索系统,包括但不限于多模态模型训练、跨模态生成与检索、生成式AI搜、多模态Agent等; 2、参与搜索引擎研发,全链路提升搜索效果,包括但不限于多模态理解、query分析、召回、相关性、排序等关键模块的算法设计与优化; 3、参与买家Agent全链路开发与优化,跟踪前沿多模态大模型技术,探索推动开源SOTA模型的产品化落地。

更新于 2026-04-07杭州
logo of aligenie
社招1年以上技术类-算法

Accio是阿里巴巴国际数字商业集团阿里国际站内部孵化的一款战略级AI原生应用产品,也是全球首个B2B AI Search Agent,通过持续探索Agent、LLM、VLM、RL、Memory、Reasoning、AI Search等前沿技术,自研基座、Agent系统以及AI Search系统,实现全球B2B跨境贸易跨越式发展。 1、参与开发和优化新一代多模态原生AI搜索系统,包括但不限于多模态模型训练、跨模态生成与检索、生成式AI搜、多模态Agent等; 2、参与搜索引擎研发,全链路提升搜索效果,包括但不限于多模态理解、query分析、召回、相关性、排序等关键模块的算法设计与优化; 3、参与买家Agent全链路开发与优化,跟踪前沿多模态大模型技术,探索推动开源SOTA模型的产品化落地。

更新于 2026-04-07杭州
logo of alibaba
社招3年以上技术类-算法

Accio是阿里巴巴国际数字商业集团阿里国际站内部孵化的一款战略级AI原生应用产品,也是全球首个B2B AI Search Agent,通过持续探索Agent、LLM、VLM、RL、Memory、Reasoning、AI Search等前沿技术,自研基座、Agent系统以及AI Search系统,实现全球B2B跨境贸易跨越式发展。 1、参与跨境电商多语言多模态大模型研发,包括而不限于Post-Training、SFT、RLHF、RL、Memory等全链路建设; 2、负责AI Native专项能力建设,包括而不限于RAG System、Agent System、Function Call、Reasoning、Agentic RL、Proactive Agent、LangChain; 3、探索LLM前沿技术,持续迭代自研模型能力,推动Native AI Agent落地,重构B2B跨境贸易交互体验。

更新于 2026-03-31杭州