通义研究型实习生-音视频统一理解对话大模型

实习兼职通义研究型实习生2024-09-20地点：北京 | 杭州状态：招聘

扫码手机上打开

任职要求

候选人应为：
1.计算机及相关专业的博士或硕士研究生，且对大模型有充分的兴趣；
2.对计算机视觉、语音生…

登录查看完整任职要求

微信扫码，1秒登录

工作职责

随着数字化和信息技术的迅猛发展，音视频内容的生成和理解成为了研究的热点。传统的音视频处理方法往往依赖于特定领域的知识，难以实现跨领域的统一理解。近年来，深度学习和大模型技术的崛起为解决这一问题提供了新的思路。
尤其是如GPT-4o这样的先进语言模型，展现了在文本理解和生成上的强大能力。通过构建音视频数据的多模态大模型，可以实现对音视频内容的深入理解与高效生成。这样的模型不仅能够提升音视频内容的质量，还能增强用户体验，应用于娱乐、教育、医疗等多个领域。
此外，提升模型在音视频场景中的推理能力和交互性，能够实现更为智能的内容推荐与创作辅助。综上所述，围绕音视频统一理解生成大模型的研究，具有重要的理论意义和广泛的应用前景，为未来的数字内容创作奠定了坚实基础。
为实现音视频数据的多模态大模型，存在的挑战包括但不限于：
1、生成模型的可扩展性：
如何构建可扩展的生成模型，能够处理不同类型的音频和视频数据？例如，如何让模型适应不同的编码格式、采样率和分辨率？
2、噪声鲁棒性：
如何提升模型对音频和视频噪声的鲁棒性？特别是在实际应用环境中，常常会遇到不同类型的噪声干扰。
3、跨模态的语义理解：
如何提高模型对跨模态内容的语义理解能力？包括如何在生成过程中保持音频与视频内容的一致性，以及如何避免模态间的误解。
4、实时处理能力：
如何优化模型以达到实时处理的能力，尤其是在需同时处理音频和视频流的应用场景中，如视频会议、直播等？

📮 投递简历 ✨AI模拟面试

难度：

包括英文材料

大模型+

还有更多 •••

登录查看完整学习资料

相关职位

研究型实习生-多模态大模型技术探索

实习通义研究型实习生

我们正在寻找对多模态大模型技术充满热情的研究工程师/科学家，加入我们的团队，共同探索前沿技术并推动其在实际场景中的应用。你将专注于文本、视觉、音频等多模态的联合建模与创新开发，致力于打造下一代人工智能解决方案。核心职责： 1、多模态联合建模 -研究文本、视觉、音频的联合训练范式，在多模态融合中保持并提升文本推理能力。 -探索多模态框架下的跨模态对齐与交互机制，优化模型的表现与效率。 2、音频生成与理解 -开发高表现力情感对话生成技术，实现自然、流畅的语音合成效果。 -研究音频与音效的统一建模方法，支持多模态音频风格转换等创新任务。 -探索音频与视觉模态的深度理解，包括音频情感、背景环境信息的解析及音视频内容的联合理解。 3、音频表征学习 -研究音频表征的离散化编码方法，设计低帧率、高效率的语音与音频联合建模方案。 -探索更高效的音频特征提取与表示方式，为下游任务提供高质量输入。 4、多模态推理优化 -研究多模态大模型的深度推理能力，优化Chain-of-Thought（CoT）推理的耗时与性能。 -探索复杂推理任务的解决方案，提升模型在多模态场景下的逻辑推理与决策能力。 5、技术创新与落地 -持续跟踪学术前沿动态，结合实际需求提出创新性技术方案。 -推动研究成果的实际应用，参与从算法设计到产品落地的全流程。

更新于 2025-04-23北京|杭州

研究型实习生-多模态世界模型前沿技术研究

实习通义研究型实习生

多模态世界模型前沿技术研究项目，旨在进行如下课题研究： 1. 世界模型，包括但不限于：长视频生成、多模态交互式世界模型、实时音视频生成。 2. 原生多模态预训练，包括但不限于：融合语言与图像理解生成统一的多模态模型、音视频融合的生成模型、高效多模态预训练算法。 3. 人类反馈与强化学习，包括但不限于：基于规则的强化学习策略、高效 DPO 与 PPO 算法设计、基于万相用户反馈的RLHF 视频生成质量提升。

更新于 2025-09-03北京|杭州

研究型实习生-安全域多模态大模型架构和效率优化

实习研究型实习生

研究领域：人工智能项目简介：课题1：音视频细粒度理解与token压缩，负责人：默宸，HC数：1个随着大模型时代的到来，图文领域的视觉Token压缩技术为复杂场景下的视觉理解提供了全新的解决思路。这种技术不仅能够有效减少冗余信息，还能保留关键语义特征，从而显著提升图像的细粒度理解能力，同时满足高时效性任务的需求。基于此，我们希望能够开展基于query牵引与信息密度的Token压缩算法研究，针对视频内容的特点，设计高效的压缩与理解方案，以推动视频审核算法的性能优化与实际落地。课题2：基于规则动态化Token交互的高效视频理解与推理模型研究，负责人：夜兰，HC数：1个本研究方向旨在探索一种基于多规则联合推理的高效视频理解模型，以解决视频理解任务中效率与精度的平衡问题。通过规则先验引导的视觉Token联合抽取，结合视觉Token压缩技术，显著减少冗余信息并优化计算效率。模型引入动态规则-Token对应机制，实现规则与视觉信息的高效联合提取，同时结合多任务学习框架，支持多种规则的统一推断与协同处理。该方案能够在保持高精度的同时显著提升推理速度，适用于视频内容多规则审核、视频账号行为识别和场景分类等高时效性任务，为实际应用场景提供高效、细粒度的视频理解解决方案。课题3：视频开集信息检测和定位，负责人：默宸，HC数：1个随着视频内容生态的爆发式增长，传统闭集检测方法在面对业务快速迭代需求时面临显著挑战，难以泛化至开放场景下的新概念检测，且时空定位精度与效率难以平衡。本研究致力于构建视频开集信息检测框架，通过多模态语义对齐与时空注意力机制，实现对任意指定内容的视频检索（包含时空定位）。该技术将推动视频审核从定制化开发向通用化检测转型。课题4：隐式深度推理与动态步骤压缩的协同优化架构研究，负责人：侯猫/亘郁，HC数：2个现有大语言模型在复杂推理任务中面临根本性效率瓶颈：基于Transformer的注意力机制导致计算复杂度随上下文长度呈二次增长，KV缓存存储开销线性增加。传统显式推理方法（如Chain-of-Thought）通过生成冗长中间步骤提升精度，却加剧了计算资源消耗；而隐式推理虽能压缩计算步骤，但存在推理路径不可控、状态迭代深度不足等缺陷。因此希望从融合动态步骤压缩与隐式深度推理的角度出发，不仅实现动态剪枝冗余中间思考步骤，同时通过隐状态迭代实现深度计算扩展，从而达到在保持/提升推理精度的同时，将复杂任务的计算负载降低5，突破现有模型在长文本生成与多跳推理中的效率天花板。

上海|杭州

多模态实时交互电商数字人

实习淘天集团研究型实

欢迎加入阿里巴巴数字人团队！如果你对以下领域感兴趣，并希望在实际项目中积累经验，欢迎加入我们！你将参与的工作：个性化数字人形象生成系统在海量用户数据和先进技术支持下，协助开发能够生成千人千面个性化虚拟形象的系统。学习并应用基础的图像处理和生成模型，帮助提升系统的定制化能力。高表现力肢体表情驱动技术研发参与研发基于动作捕捉、表情合成和实时渲染技术的数字人表情和肢体动作驱动系统。协助优化现有技术，使数字人的表情和动作更加自然流畅，增强情感表达能力。核心技术难题攻克在导师指导下，学习和探索基于扩散模型的高质量数字人生成技术。多模态统一大模型的应用了解并参与多模态信息融合的研究，结合图像、文本、音频等多种信息，构建具备理解能力和生成能力的数字人系统。协助解决业界尚未突破的技术瓶颈，推动技术创新。相关研究课题细分方向：数字人形象定制与风格化迁移协助开发和优化数字人形象定制生成能力，适配不同的实时互动场景。学习并应用基本的图像处理和生成算法，提升系统的灵活性和适应性。数字人表情与肢体动作驱动在导师指导下，参与数字人表情和肢体动作驱动技术的研发。协助测试和优化现有系统，使其表现力更接近真人水平。数字人多模态理解感知能力参与构建数字人与用户的实时交互系统，提升其理解和响应能力。协助进行多模态信息融合实验，增强数字人的个性化服务能力。我们期待你是：计算机科学、软件工程、人工智能等相关专业的在校学生（本科或研究生）。对数字人技术有浓厚兴趣，愿意在实践中学习和成长。具备一定的编程基础（如Python、C++），熟悉常用的数据处理和机器学习框架（如PyTorch、TensorFlow）者优先。良好的团队合作精神和沟通能力。加入我们，你将获得：丰富的实战经验和前沿技术的学习机会。导师一对一指导，助力你的职业发展。参与影响亿级用户的大规模项目，感受技术带来的巨大价值。开放包容的工作环境和充满活力的团队氛围。让我们一起定义未来数字人的无限可能，期待你的加入！

更新于 2025-10-17北京|杭州