logo of aliyun

阿里云研究型实习生-视频生成模型优化研究

实习兼职阿里云研究型实习生地点:北京状态:招聘

任职要求


1、计算机科学、人工智能、电子工程或相关专业硕士及以上学历,博士优先;
2、扎实的深度学习计算机视觉基础,熟悉扩散模型、Transformer、生成式AI等核心技术;
3、在文生图或文生视频领域有实际研究或项目经验,了解主流模型架构(如 Wa…
登录查看完整任职要求
微信扫码,1秒登录

工作职责


岗位概述:
聚焦文生视频模型的推理与训练加速技术,探索、设计并实现全新的算法与系统级解决方案。解决当前文生视频模型面临的最大瓶颈:高昂的计算成本与漫长的生成时间。

岗位职责:
1、前沿算法研究与创新:
(1)深入研究当前主流文生视频模型(如Wanx、CogVideo等)的架构,定位其在计算、内存及I/O上的核心瓶颈;
(2)探索并设计全新的高效模型架构,将MoE、Sparse Attention等先进思想引入Diffusion Transformer,研究少步/单步生成技术;
(3)针对视频生成中的时序建模,研发更轻量级但同样有效的时空注意力机制。
2、系统级优化与实现:
(1)设计并实现高性能的自定义CUDA/Triton核函数,以支持不规则稀疏计算模式或新型算子;
(2)利用量化、剪枝、蒸馏等模型压缩技术,在保持生成质量的同时,大幅缩减模型尺寸和计算量;
(3)研究适用于高分辨率、长时序视频生成的计算与内存优化技术。
3、学术与技术影响力:
(1)将研究成果发表在顶级AI会议,构建团队的行业影响力;
(2)跟踪并分析业界最新的技术动态,确保我们的研究方向始终保持领先。
包括英文材料
学历+
深度学习+
OpenCV+
Transformer+
还有更多 •••
相关职位

logo of alibaba
实习淘天集团研究型实

希望解决如下技术问题。 1、适用于商品视频生成的文本-视频数据集:构建一个能够支持基于多模态大模型的商品视频生成算法训练和优化的文本-视频数据集 2. 基于多模态大模型的商品视频生成系统:通过探索基于多模态大模型的文本到视频生成技术,以“视频关键帧-高帧率视频-高分辨率视频”为基本路径,完成文本到视频关键帧生成模型、视频插帧模型、视频超分辨率生成模型等核心算法模型,构建视频生成系统,实现输入商品描述文本+商品图片,自动生成原生化的商品微视频和商品短视频。

更新于 2025-05-06北京|杭州
logo of amap
实习高德研究型实习生

参与生成式大模型核心算法的研发与实验,包括 Diffusion、Autoregressive(AR)、VAE、Transformer 等架构。 协助设计并实现大模型的训练与优化流程,从预训练到后训练(SFT、RLHF)。 探索时空视频编码、压缩与生成算法,提升生成任务的时序质量与性能表现。 跟踪行业与学术前沿研究,参与创新技术的实验与评估,并推动成果转化为学术论文或技术报告。

更新于 2025-10-31北京
logo of tongyi
实习通义研究型实习生

随着人工智能技术的飞速发展,智能视频编辑逐渐成为多媒体处理领域的重要研究方向。传统的视频编辑工具依赖于手动操作,耗时且复杂,而基于深度学习和大模型的智能视频编辑技术则能够自动完成许多任务,如角色生成、场景生成、运动生成、风格转换等。然而,当前的智能视频编辑系统在实际应用中往往面临一个关键挑战:“可控性不足”。 因此,本课题旨在探索如何提高智能视频编辑系统的可控性,使用户能够在保持高效自动化的同时,对视频编辑过程和结果进行更加精细的控制。通过研究和开发新的算法和技术,我们希望能够为未来的智能视频编辑系统提供更强的交互性和灵活性,从而更好地服务于内容创作者和普通用户。

更新于 2024-12-12北京|杭州
logo of tongyi
实习通义研究型实习生

随着数字化和信息技术的迅猛发展,音视频内容的生成和理解成为了研究的热点。传统的音视频处理方法往往依赖于特定领域的知识,难以实现跨领域的统一理解。近年来,深度学习和大模型技术的崛起为解决这一问题提供了新的思路。 尤其是如GPT-4o这样的先进语言模型,展现了在文本理解和生成上的强大能力。通过构建音视频数据的多模态大模型,可以实现对音视频内容的深入理解与高效生成。这样的模型不仅能够提升音视频内容的质量,还能增强用户体验,应用于娱乐、教育、医疗等多个领域。 此外,提升模型在音视频场景中的推理能力和交互性,能够实现更为智能的内容推荐与创作辅助。综上所述,围绕音视频统一理解生成大模型的研究,具有重要的理论意义和广泛的应用前景,为未来的数字内容创作奠定了坚实基础。 为实现音视频数据的多模态大模型,存在的挑战包括但不限于: 1、生成模型的可扩展性: 如何构建可扩展的生成模型,能够处理不同类型的音频和视频数据?例如,如何让模型适应不同的编码格式、采样率和分辨率? 2、噪声鲁棒性: 如何提升模型对音频和视频噪声的鲁棒性?特别是在实际应用环境中,常常会遇到不同类型的噪声干扰。 3、跨模态的语义理解: 如何提高模型对跨模态内容的语义理解能力?包括如何在生成过程中保持音频与视频内容的一致性,以及如何避免模态间的误解。 4、实时处理能力: 如何优化模型以达到实时处理的能力,尤其是在需同时处理音频和视频流的应用场景中,如视频会议、直播等?

更新于 2024-09-20北京|杭州