logo of alibaba

阿里巴巴阿里妈妈-视频生成大模型研究型实习生

实习兼职淘天集团研究型实习生地点:北京状态:招聘

任职要求


1. 掌握C/C++, Python 等至少一门编程语言,有深度学习开发经验,具备独立实现算法的能力; 
2. 在计算机视觉自然语言处理、多模态等方向有研发经验; 
3. 良好的逻辑分析能力和数理基础,在复杂业务场景下能够分解和抽象问题,提供优秀、完整、可行的解决方案;
4. 对算法原理及应用有较深入的理解,有实际成果并发表在国际重要会议、期刊者优先; 
5. 对文案生成视频、大语言模型、多模态大模型等AIGC前沿领域有研发经验或充分理解者优先。

工作职责


1. 跟进和研发扩散模型、视频生成基座模型等先进生成算法和模型;
2. 跟进和研发视频生成应用大模型、多条件可控生成等先进的生成算法、模型和策略;
3. 研发基于视频生成大模型的视频AIGC工具应用;
4. 结合以上方向的探索和研究,撰写发表论文,和业界、学术界保持良好的交流。
包括英文材料
C+
C+++
Python+
深度学习+
算法+
OpenCV+
NLP+
大模型+
相关职位

logo of tongyi
实习通义研究型实习生

随着数字化和信息技术的迅猛发展,音视频内容的生成和理解成为了研究的热点。传统的音视频处理方法往往依赖于特定领域的知识,难以实现跨领域的统一理解。近年来,深度学习和大模型技术的崛起为解决这一问题提供了新的思路。 尤其是如GPT-4o这样的先进语言模型,展现了在文本理解和生成上的强大能力。通过构建音视频数据的多模态大模型,可以实现对音视频内容的深入理解与高效生成。这样的模型不仅能够提升音视频内容的质量,还能增强用户体验,应用于娱乐、教育、医疗等多个领域。 此外,提升模型在音视频场景中的推理能力和交互性,能够实现更为智能的内容推荐与创作辅助。综上所述,围绕音视频统一理解生成大模型的研究,具有重要的理论意义和广泛的应用前景,为未来的数字内容创作奠定了坚实基础。 为实现音视频数据的多模态大模型,存在的挑战包括但不限于: 1、生成模型的可扩展性: 如何构建可扩展的生成模型,能够处理不同类型的音频和视频数据?例如,如何让模型适应不同的编码格式、采样率和分辨率? 2、噪声鲁棒性: 如何提升模型对音频和视频噪声的鲁棒性?特别是在实际应用环境中,常常会遇到不同类型的噪声干扰。 3、跨模态的语义理解: 如何提高模型对跨模态内容的语义理解能力?包括如何在生成过程中保持音频与视频内容的一致性,以及如何避免模态间的误解。 4、实时处理能力: 如何优化模型以达到实时处理的能力,尤其是在需同时处理音频和视频流的应用场景中,如视频会议、直播等?

更新于 2024-09-20
logo of alibaba
实习淘天集团研究型实

1. 负责大模型(MLLMs/LLMs)核心技术研发,包括预训练、垂域SFT、RLHF等,持续追踪和应用领域最新技术进展; 2. 负责大模型性能优化:研发模型加速技术,如量化、剪枝与知识蒸馏;优化数据特征与调度策略;构建高效推理链路、提升运行速度及降低成本; 3. 负责多模态AIGC的创意玩法探索,以及细粒度可控的多模态内容生成和编辑、不同输入条件下的高质量视频生成技术研究等; 4. 基于研究成果撰写高质量学术论文,积极参与业界交流活动,建立和维护学术界与产业界的合作关系。

更新于 2025-05-06
logo of tongyi
实习通义研究型实习生

1、理解-生成融合范式: 研究理解模型和生成模型的有效融合范式,例如探索Diffusion-Transformer (DiT) 和 Auto-Regressive (AR) 模型的融合与交互方式。 2、融合音频数据的统一模型: 将音频数据融入现有的多模态理解和生成框架,构建更全面的多模态统一模型。 3、统一Tokenizer研究: 探索适用于图像、视频、音频等多种模态生成和理解的统一Tokenizer,提高模型的泛化能力和效率。

更新于 2025-06-12
logo of alibaba
实习淘天集团研究型实

希望解决如下技术问题。 1、适用于商品视频生成的文本-视频数据集:构建一个能够支持基于多模态大模型的商品视频生成算法训练和优化的文本-视频数据集 2. 基于多模态大模型的商品视频生成系统:通过探索基于多模态大模型的文本到视频生成技术,以“视频关键帧-高帧率视频-高分辨率视频”为基本路径,完成文本到视频关键帧生成模型、视频插帧模型、视频超分辨率生成模型等核心算法模型,构建视频生成系统,实现输入商品描述文本+商品图片,自动生成原生化的商品微视频和商品短视频。

更新于 2025-05-06