通义研究型实习生-多模态理解和生成统一模型(图像+视频+音频方向)

实习兼职通义研究型实习生2025-06-12地点：北京 | 杭州状态：招聘

扫码手机上打开

任职要求

1、在读博士，计算机视觉、多模态理解和表征学习、Vision-Language理解和生成大模型相关训练经验和落地经验者优先。
2、熟练掌握计算机视觉领域的基础理论和方法，熟悉P…

登录查看完整任职要求

微信扫码，1秒登录

工作职责

1、理解-生成融合范式： 研究理解模型和生成模型的有效融合范式，例如探索Diffusion-Transformer (DiT) 和 Auto-Regressive (AR) 模型的融合与交互方式。
2、融合音频数据的统一模型： 将音频数据融入现有的多模态理解和生成框架，构建更全面的多模态统一模型。
3、统一Tokenizer研究： 探索适用于图像、视频、音频等多种模态生成和理解的统一Tokenizer，提高模型的泛化能力和效率。

📮 投递简历 ✨AI模拟面试

难度：

包括英文材料

OpenCV+

大模型+

PyTorch+

深度学习+

模式识别+

CVPR+

还有更多 •••

登录查看完整学习资料

相关职位

研究型实习生-多模态生成与理解相互促进的统一模型研究

实习研究型实习生

研究领域：人工智能项目简介：多模态模型在图像生成、文本生成、语音合成等多个领域取得了显著进展。然而，现有的多模态模型往往侧重于单一任务，如生成任务或理解任务，缺乏在生成和理解之间建立有效互动的机制。这种割裂导致了模型在处理复杂任务时的局限性，例如生成高质量的图像或文本时缺乏丰富的语义信息，而在理解和推理任务中又难以捕捉到低层次的视觉细节。此外，当前最新的自监督学习(如SD-DiT，Return of Unconditional Generation)和一些生成模型的研究（如Representation Alignment for Generation）表明，生成任务和理解任务之间存在互补关系。生成任务能够提供低层次的视觉细节，有助于提高表示学习的质量；而理解任务则能够提供高层次的语义信息，有助于生成模型生成更具意义的内容。因此，构建一个能够同时处理生成和理解任务的统一模型，对于推动多模态模型的发展具有重要意义。技术价值多模态生成与理解的互补：通过将生成任务与理解任务相结合，可以生成更具语义丰富性和视觉细节的高质量图像和文本，满足更多应用场景的需求。提升表示学习质量：生成任务提供的低层次视觉细节可以增强表示学习的质量，提高模型在理解和推理任务中的表现。创新研究方法：探索生成任务和理解任务之间的相互作用机制，为多模态模型的理论研究提供新的视角和方法。业务价值提升用户体验：在探一探和支小宝等多模态多任务耦合的复杂场景中提升性能，改善用户留存。拓展应用场景：通过统一模型和更高性能有助于探索更多复杂业务落地。

北京

研究型实习生-原生多模态大模型

实习研究型实习生

研究领域：人工智能项目简介：原生多模态模型在设计时原生支持多模态，通过在音频、视频、图片、文本等多模态序列上进行预训练，可以理解、生成或操作不同模态组合，原生多模态也被认为是继NLP大模型后实现AGI的必经之路。本课题主要研究原生多模态的核心问题, 包括但不限于: 1. 研究多个模态进行混合训练并实现各模态各任务均衡的方法 2. 研究理解和生成任务的统一框架，实现理解和生成任务的相互促进 3. 提升多模态in-context能力机制及提升多模态in-context learning能力

北京|上海|杭州

多模态实时交互电商数字人

实习淘天集团研究型实

欢迎加入阿里巴巴数字人团队！如果你对以下领域感兴趣，并希望在实际项目中积累经验，欢迎加入我们！你将参与的工作：个性化数字人形象生成系统在海量用户数据和先进技术支持下，协助开发能够生成千人千面个性化虚拟形象的系统。学习并应用基础的图像处理和生成模型，帮助提升系统的定制化能力。高表现力肢体表情驱动技术研发参与研发基于动作捕捉、表情合成和实时渲染技术的数字人表情和肢体动作驱动系统。协助优化现有技术，使数字人的表情和动作更加自然流畅，增强情感表达能力。核心技术难题攻克在导师指导下，学习和探索基于扩散模型的高质量数字人生成技术。多模态统一大模型的应用了解并参与多模态信息融合的研究，结合图像、文本、音频等多种信息，构建具备理解能力和生成能力的数字人系统。协助解决业界尚未突破的技术瓶颈，推动技术创新。相关研究课题细分方向：数字人形象定制与风格化迁移协助开发和优化数字人形象定制生成能力，适配不同的实时互动场景。学习并应用基本的图像处理和生成算法，提升系统的灵活性和适应性。数字人表情与肢体动作驱动在导师指导下，参与数字人表情和肢体动作驱动技术的研发。协助测试和优化现有系统，使其表现力更接近真人水平。数字人多模态理解感知能力参与构建数字人与用户的实时交互系统，提升其理解和响应能力。协助进行多模态信息融合实验，增强数字人的个性化服务能力。我们期待你是：计算机科学、软件工程、人工智能等相关专业的在校学生（本科或研究生）。对数字人技术有浓厚兴趣，愿意在实践中学习和成长。具备一定的编程基础（如Python、C++），熟悉常用的数据处理和机器学习框架（如PyTorch、TensorFlow）者优先。良好的团队合作精神和沟通能力。加入我们，你将获得：丰富的实战经验和前沿技术的学习机会。导师一对一指导，助力你的职业发展。参与影响亿级用户的大规模项目，感受技术带来的巨大价值。开放包容的工作环境和充满活力的团队氛围。让我们一起定义未来数字人的无限可能，期待你的加入！

更新于 2025-10-17北京|杭州

研究型实习生-音视频统一理解对话大模型

实习通义研究型实习生

随着数字化和信息技术的迅猛发展，音视频内容的生成和理解成为了研究的热点。传统的音视频处理方法往往依赖于特定领域的知识，难以实现跨领域的统一理解。近年来，深度学习和大模型技术的崛起为解决这一问题提供了新的思路。尤其是如GPT-4o这样的先进语言模型，展现了在文本理解和生成上的强大能力。通过构建音视频数据的多模态大模型，可以实现对音视频内容的深入理解与高效生成。这样的模型不仅能够提升音视频内容的质量，还能增强用户体验，应用于娱乐、教育、医疗等多个领域。此外，提升模型在音视频场景中的推理能力和交互性，能够实现更为智能的内容推荐与创作辅助。综上所述，围绕音视频统一理解生成大模型的研究，具有重要的理论意义和广泛的应用前景，为未来的数字内容创作奠定了坚实基础。为实现音视频数据的多模态大模型，存在的挑战包括但不限于： 1、生成模型的可扩展性：如何构建可扩展的生成模型，能够处理不同类型的音频和视频数据？例如，如何让模型适应不同的编码格式、采样率和分辨率？ 2、噪声鲁棒性：如何提升模型对音频和视频噪声的鲁棒性？特别是在实际应用环境中，常常会遇到不同类型的噪声干扰。 3、跨模态的语义理解：如何提高模型对跨模态内容的语义理解能力？包括如何在生成过程中保持音频与视频内容的一致性，以及如何避免模态间的误解。 4、实时处理能力：如何优化模型以达到实时处理的能力，尤其是在需同时处理音频和视频流的应用场景中，如视频会议、直播等？

更新于 2024-09-20北京|杭州