阿里云研究型实习生-视频生成模型优化研究

实习兼职阿里云研究型实习生2025-11-26地点：北京状态：招聘

扫码手机上打开

任职要求

1、计算机科学、人工智能、电子工程或相关专业硕士及以上学历，博士优先；
2、扎实的深度学习与计算机视觉基础，熟悉扩散模型、Transformer、生成式AI等核心技术；
3、在文生图或文生视频领域有实际研究或项目经验，了解主流模型架构（如 Wa…

登录查看完整任职要求

微信扫码，1秒登录

工作职责

岗位概述：
聚焦文生视频模型的推理与训练加速技术，探索、设计并实现全新的算法与系统级解决方案。解决当前文生视频模型面临的最大瓶颈：高昂的计算成本与漫长的生成时间。

岗位职责：
1、前沿算法研究与创新：
（1）深入研究当前主流文生视频模型（如Wanx、CogVideo等）的架构，定位其在计算、内存及I/O上的核心瓶颈；
（2）探索并设计全新的高效模型架构，将MoE、Sparse Attention等先进思想引入Diffusion Transformer，研究少步/单步生成技术；
（3）针对视频生成中的时序建模，研发更轻量级但同样有效的时空注意力机制。
2、系统级优化与实现：
（1）设计并实现高性能的自定义CUDA/Triton核函数，以支持不规则稀疏计算模式或新型算子；
（2）利用量化、剪枝、蒸馏等模型压缩技术，在保持生成质量的同时，大幅缩减模型尺寸和计算量；
（3）研究适用于高分辨率、长时序视频生成的计算与内存优化技术。
3、学术与技术影响力：
（1）将研究成果发表在顶级AI会议，构建团队的行业影响力；
（2）跟踪并分析业界最新的技术动态，确保我们的研究方向始终保持领先。

📮 投递简历 ✨AI模拟面试

难度：

包括英文材料

学历+

深度学习+

OpenCV+

Transformer+

还有更多 •••

登录查看完整学习资料

相关职位

研究型实习生 - 视频生成模型优化研究

实习阿里巴巴研究型实

聚焦文生视频模型的推理与训练加速技术，探索、设计并实现全新的算法与系统级解决方案。解决当前文生视频模型面临的最大瓶颈：高昂的计算成本与漫长的生成时间。

更新于 2026-05-06北京|杭州

研究型实习生-视频生成模型优化研究

实习阿里巴巴研究型实

岗位概述：聚焦文生视频模型的推理与训练加速技术，探索、设计并实现全新的算法与系统级解决方案。解决当前文生视频模型面临的最大瓶颈：高昂的计算成本与漫长的生成时间。岗位职责： 1、前沿算法研究与创新：（1）深入研究当前主流文生视频模型（如Wanx、CogVideo等）的架构，定位其在计算、内存及I/O上的核心瓶颈；（2）探索并设计全新的高效模型架构，将MoE、Sparse Attention等先进思想引入Diffusion Transformer，研究少步/单步生成技术；（3）针对视频生成中的时序建模，研发更轻量级但同样有效的时空注意力机制。 2、系统级优化与实现：（1）设计并实现高性能的自定义CUDA/Triton核函数，以支持不规则稀疏计算模式或新型算子；（2）利用量化、剪枝、蒸馏等模型压缩技术，在保持生成质量的同时，大幅缩减模型尺寸和计算量；（3）研究适用于高分辨率、长时序视频生成的计算与内存优化技术。 3、学术与技术影响力：（1）将研究成果发表在顶级AI会议，构建团队的行业影响力；（2）跟踪并分析业界最新的技术动态，确保我们的研究方向始终保持领先。

更新于 2026-03-17北京|杭州

研究型实习生-视频生成中算法与系统相结合的优化研究

实习阿里巴巴研究型实

岗位概述：聚焦文生视频模型的推理与训练加速技术，探索、设计并实现全新的算法与系统级解决方案。解决当前文生视频模型面临的最大瓶颈：高昂的计算成本与漫长的生成时间。岗位职责： 1、前沿算法研究与创新： (1) 深入研究当前主流文生视频模型（如Wanx、CogVideo等）的架构，定位其在计算、内存及I/O上的核心瓶颈； (2) 探索并设计全新的高效模型架构，将MoE、Sparse Attention等先进思想引入Diffusion Transformer，研究少步/单步生成技术； (3) 深入研究时空表征冗余消除技术，突破时空 Token 的同质化计算瓶颈。研发自适应缓存与特征复用机制，达成推理速度与视觉生成质量的最优平衡。 2、系统级优化与实现： (1) 设计并实现高性能的自定义CUDA/Triton核函数，以支持不规则稀疏计算模式或新型算子； (2) 利用量化、剪枝、蒸馏等模型压缩技术，在保持生成质量的同时，大幅缩减模型尺寸和计算量； (3) 研究适用于高分辨率、超长视频生成的计算与内存优化技术。 3、学术与技术影响力：（1）将研究成果发表在顶级AI会议，构建团队的行业影响力；（2）跟踪并分析业界最新的技术动态，确保我们的研究方向始终保持领先。

更新于 2026-04-21北京

研究型实习生-视频理解与生成应用算法研究

实习阿里巴巴研究型实

专注于视频理解与生成应用算法研究，具体研究内容包括： 1.视频理解：通过高质量数据构建方案，实现视频的精细主体/运动/场景描述以及长视频结构化描述（如人物关系、情节发展、故事主旨），支持长视频问答与精准时序定位。同时结合R1等前沿思维链技术解析复杂视频事件，视频逻辑推理等； 2.视频生成：聚焦视频DiT/AR等前沿架构下的垂类微调，包括复杂人体运动/场景动效生成与可控编辑技术，研究多模态指令驱动的视频编辑、人体运动增强及物理约束建模方法，提升生成视频的动态质量与风格迁移能力。

更新于 2026-04-27北京|杭州