阿里巴巴阿里妈妈-视频生成大模型研究型实习生

实习兼职淘天集团研究型实习生2025-05-06地点：北京状态：招聘

扫码手机上打开

任职要求

1. 掌握C/C++, Python 等至少一门编程语言，有深度学习开发经验，具备独立实现算法的能力； 
2. 在计算机视觉、自然语言处理、多模态等方向有研发经验； 
3. 良好的逻辑分析能力和数理基础，在复杂业务场景下能够分…

登录查看完整任职要求

微信扫码，1秒登录

工作职责

1. 跟进和研发扩散模型、视频生成基座模型等先进生成算法和模型；
2. 跟进和研发视频生成应用大模型、多条件可控生成等先进的生成算法、模型和策略；
3. 研发基于视频生成大模型的视频AIGC工具应用；
4. 结合以上方向的探索和研究，撰写发表论文，和业界、学术界保持良好的交流。

📮 投递简历 ✨AI模拟面试

难度：

包括英文材料

C+

C+++

Python+

深度学习+

还有更多 •••

登录查看完整学习资料

相关职位

生成式大模型算法实习生

实习高德研究型实习生

参与生成式大模型核心算法的研发与实验，包括 Diffusion、Autoregressive（AR）、VAE、Transformer 等架构。协助设计并实现大模型的训练与优化流程，从预训练到后训练（SFT、RLHF）。探索时空视频编码、压缩与生成算法，提升生成任务的时序质量与性能表现。跟踪行业与学术前沿研究，参与创新技术的实验与评估，并推动成果转化为学术论文或技术报告。

更新于 2025-10-31北京

研究型实习生-音视频统一理解对话大模型

实习通义研究型实习生

随着数字化和信息技术的迅猛发展，音视频内容的生成和理解成为了研究的热点。传统的音视频处理方法往往依赖于特定领域的知识，难以实现跨领域的统一理解。近年来，深度学习和大模型技术的崛起为解决这一问题提供了新的思路。尤其是如GPT-4o这样的先进语言模型，展现了在文本理解和生成上的强大能力。通过构建音视频数据的多模态大模型，可以实现对音视频内容的深入理解与高效生成。这样的模型不仅能够提升音视频内容的质量，还能增强用户体验，应用于娱乐、教育、医疗等多个领域。此外，提升模型在音视频场景中的推理能力和交互性，能够实现更为智能的内容推荐与创作辅助。综上所述，围绕音视频统一理解生成大模型的研究，具有重要的理论意义和广泛的应用前景，为未来的数字内容创作奠定了坚实基础。为实现音视频数据的多模态大模型，存在的挑战包括但不限于： 1、生成模型的可扩展性：如何构建可扩展的生成模型，能够处理不同类型的音频和视频数据？例如，如何让模型适应不同的编码格式、采样率和分辨率？ 2、噪声鲁棒性：如何提升模型对音频和视频噪声的鲁棒性？特别是在实际应用环境中，常常会遇到不同类型的噪声干扰。 3、跨模态的语义理解：如何提高模型对跨模态内容的语义理解能力？包括如何在生成过程中保持音频与视频内容的一致性，以及如何避免模态间的误解。 4、实时处理能力：如何优化模型以达到实时处理的能力，尤其是在需同时处理音频和视频流的应用场景中，如视频会议、直播等？

更新于 2024-09-20北京|杭州

研究型实习生-多模态交互3D数字人的感知、重建及生成技术

实习通义研究型实习生

3D数字人的感知、重建与生成技术是多模态交互数字人、全息通讯、虚拟主播、情感陪伴等前沿应用的核心支撑。本项目旨在推动如下课题的技术攻关： 1、3D数字人感知研究：聚焦于利用多模态视觉语言模型、视频生成等先进方法，从单张图像或视频中高效、精准地提取数字人的表情与人体参数，提升数字人感知系统的准确度与鲁棒性。 2、3D数字人重建与生成研究：致力于结合文本、图像、视频等多模态数据与生成式大模型技术，推动从单图或多视角图像中重建并生成高质量3D数字人（如高斯泼溅、三维网格等）技术的发展，增强模型的写实性与表现力。同时探索实时多模态驱动与渲染技术，构建低延迟、高真实感的沉浸式交互体验，为多模态交互数字人、全息通讯、虚拟主播、情感陪伴等场景提供核心能力。

更新于 2025-11-18杭州

大模型/AIGC日常研究实习生

实习淘天集团研究型实

1. 负责大模型（MLLMs/LLMs）核心技术研发，包括预训练、垂域SFT、RLHF等，持续追踪和应用领域最新技术进展； 2. 负责大模型性能优化：研发模型加速技术，如量化、剪枝与知识蒸馏；优化数据特征与调度策略；构建高效推理链路、提升运行速度及降低成本； 3. 负责多模态AIGC的创意玩法探索，以及细粒度可控的多模态内容生成和编辑、不同输入条件下的高质量视频生成技术研究等； 4. 基于研究成果撰写高质量学术论文，积极参与业界交流活动，建立和维护学术界与产业界的合作关系。

更新于 2025-05-06北京|杭州