蚂蚁金服研究型实习生-多模态生成与理解相互促进的统一模型研究

实习兼职研究型实习生地点：北京状态：招聘

扫码手机上打开

任职要求

研究领域：
-目前正在攻读计算机科学或相关STEM领域的学士,硕士或博士学位
-具有一种或多种通用编程语言的经验,包括但不限于: Java,C/C ++ 、Python、JavaScript或Go
-具有上述研究领域的…

登录查看完整任职要求

微信扫码，1秒登录

工作职责

研究领域：
  人工智能
项目简介：
  多模态模型在图像生成、文本生成、语音合成等多个领域取得了显著进展。然而，现有的多模态模型往往侧重于单一任务，如生成任务或理解任务，缺乏在生成和理解之间建立有效互动的机制。这种割裂导致了模型在处理复杂任务时的局限性，例如生成高质量的图像或文本时缺乏丰富的语义信息，而在理解和推理任务中又难以捕捉到低层次的视觉细节。
此外，当前最新的自监督学习(如SD-DiT，Return of Unconditional Generation)和一些生成模型的研究（如Representation Alignment for Generation）表明，生成任务和理解任务之间存在互补关系。生成任务能够提供低层次的视觉细节，有助于提高表示学习的质量；而理解任务则能够提供高层次的语义信息，有助于生成模型生成更具意义的内容。因此，构建一个能够同时处理生成和理解任务的统一模型，对于推动多模态模型的发展具有重要意义。	技术价值
多模态生成与理解的互补：通过将生成任务与理解任务相结合，可以生成更具语义丰富性和视觉细节的高质量图像和文本，满足更多应用场景的需求。
提升表示学习质量：生成任务提供的低层次视觉细节可以增强表示学习的质量，提高模型在理解和推理任务中的表现。
创新研究方法：探索生成任务和理解任务之间的相互作用机制，为多模态模型的理论研究提供新的视角和方法。
业务价值
提升用户体验：在探一探和支小宝等多模态多任务耦合的复杂场景中提升性能，改善用户留存。
拓展应用场景：通过统一模型和更高性能有助于探索更多复杂业务落地。

📮 投递简历 ✨AI模拟面试

难度：

包括英文材料

学历+

Java+

C+

还有更多 •••

登录查看完整学习资料

相关职位

研究型实习生-多模态内生安全对齐

实习研究型实习生

研究领域：人工智能项目简介：内生安全是近年来大语言模型研发中的一个关键研究方向。随着模型能力的快速增长，特别是推理模型，通过慢思考LongCoT的方式极大的提升了能力达到专家水平，然而强大能力也带来了潜在的安全风险。内生安全的目标是通过设计模型架构、推理机制或训练流程，使得模型在底层逻辑中具备一致性、自我审查和误差控制的能力，从本质上降低安全隐患，而不是简单依赖筛查和围栏过滤。对于推理模型的内生安全而言，其主要难点在于 1. 可解释性不足，缺乏启发式策略和理论的结合。没有对推理模型有专门的内生安全性质的定义，形成数学的框架 2. 对抗能力缺失。由于模型较新且运行成本大，目前已有的jailbreak方法依赖大量试错的尝试，很难形成有效的攻防相互促进 3. 动态推理过程的监督。由于推理模型将思考过程进行展示，以往工作只关注在最后模型回复阶段，忽略了推理过程可能包含的风险因此，可以再一下方向进行相关研究 1. 安全高效评估框架：针对推理模型研发专门的red team方法进行内生安全评估 2. 对抗训练：提出高效的对抗方法，通过posttrain方式提升内生安全 3. 内生安全奖励：在GRPO过程中，除了回复的helpful，也考虑harmless 4. 多模态场景下的推理安全：对图文视频音频等多模态输入，均在思考过程中进行安全检查等

上海|杭州

研究型实习生-多模态大模型技术探索

实习通义研究型实习生

我们正在寻找对多模态大模型技术充满热情的研究工程师/科学家，加入我们的团队，共同探索前沿技术并推动其在实际场景中的应用。你将专注于文本、视觉、音频等多模态的联合建模与创新开发，致力于打造下一代人工智能解决方案。核心职责： 1、多模态联合建模 -研究文本、视觉、音频的联合训练范式，在多模态融合中保持并提升文本推理能力。 -探索多模态框架下的跨模态对齐与交互机制，优化模型的表现与效率。 2、音频生成与理解 -开发高表现力情感对话生成技术，实现自然、流畅的语音合成效果。 -研究音频与音效的统一建模方法，支持多模态音频风格转换等创新任务。 -探索音频与视觉模态的深度理解，包括音频情感、背景环境信息的解析及音视频内容的联合理解。 3、音频表征学习 -研究音频表征的离散化编码方法，设计低帧率、高效率的语音与音频联合建模方案。 -探索更高效的音频特征提取与表示方式，为下游任务提供高质量输入。 4、多模态推理优化 -研究多模态大模型的深度推理能力，优化Chain-of-Thought（CoT）推理的耗时与性能。 -探索复杂推理任务的解决方案，提升模型在多模态场景下的逻辑推理与决策能力。 5、技术创新与落地 -持续跟踪学术前沿动态，结合实际需求提出创新性技术方案。 -推动研究成果的实际应用，参与从算法设计到产品落地的全流程。

更新于 2025-04-23北京|杭州

研究型实习生 - 智能音频多模态生成与交互系统关键技术研究及产业化应用

实习阿里云研究型实习

随着GPT-4o等全模态大模型的突破，多模态生成与交互技术正成为人工智能领域的核心竞争方向。但当前技术在多模态深度理解、长序列生成一致性、跨模态对齐精度、实时交互智能性等方面仍面临显著挑战。本项目聚焦音频、视觉、文本的多模态融合场景，针对长序列生成、强化学习优化、跨模态推理、表征学习等关键技术进行攻关，旨在构建具备深度思考能力、高可控性、强交互性的新一代智能多模态系统，推动AI技术在音乐创作、实时对话、音视频生成等领域的产业化应用。

更新于 2025-04-07北京|杭州|上海

研究型实习生-安全域多模态大模型架构和效率优化

实习研究型实习生

研究领域：人工智能项目简介：课题1：音视频细粒度理解与token压缩，负责人：默宸，HC数：1个随着大模型时代的到来，图文领域的视觉Token压缩技术为复杂场景下的视觉理解提供了全新的解决思路。这种技术不仅能够有效减少冗余信息，还能保留关键语义特征，从而显著提升图像的细粒度理解能力，同时满足高时效性任务的需求。基于此，我们希望能够开展基于query牵引与信息密度的Token压缩算法研究，针对视频内容的特点，设计高效的压缩与理解方案，以推动视频审核算法的性能优化与实际落地。课题2：基于规则动态化Token交互的高效视频理解与推理模型研究，负责人：夜兰，HC数：1个本研究方向旨在探索一种基于多规则联合推理的高效视频理解模型，以解决视频理解任务中效率与精度的平衡问题。通过规则先验引导的视觉Token联合抽取，结合视觉Token压缩技术，显著减少冗余信息并优化计算效率。模型引入动态规则-Token对应机制，实现规则与视觉信息的高效联合提取，同时结合多任务学习框架，支持多种规则的统一推断与协同处理。该方案能够在保持高精度的同时显著提升推理速度，适用于视频内容多规则审核、视频账号行为识别和场景分类等高时效性任务，为实际应用场景提供高效、细粒度的视频理解解决方案。课题3：视频开集信息检测和定位，负责人：默宸，HC数：1个随着视频内容生态的爆发式增长，传统闭集检测方法在面对业务快速迭代需求时面临显著挑战，难以泛化至开放场景下的新概念检测，且时空定位精度与效率难以平衡。本研究致力于构建视频开集信息检测框架，通过多模态语义对齐与时空注意力机制，实现对任意指定内容的视频检索（包含时空定位）。该技术将推动视频审核从定制化开发向通用化检测转型。课题4：隐式深度推理与动态步骤压缩的协同优化架构研究，负责人：侯猫/亘郁，HC数：2个现有大语言模型在复杂推理任务中面临根本性效率瓶颈：基于Transformer的注意力机制导致计算复杂度随上下文长度呈二次增长，KV缓存存储开销线性增加。传统显式推理方法（如Chain-of-Thought）通过生成冗长中间步骤提升精度，却加剧了计算资源消耗；而隐式推理虽能压缩计算步骤，但存在推理路径不可控、状态迭代深度不足等缺陷。因此希望从融合动态步骤压缩与隐式深度推理的角度出发，不仅实现动态剪枝冗余中间思考步骤，同时通过隐状态迭代实现深度计算扩展，从而达到在保持/提升推理精度的同时，将复杂任务的计算负载降低5，突破现有模型在长文本生成与多跳推理中的效率天花板。

上海|杭州