logo of antgroup

蚂蚁金服研究型实习生-多模态大模型轻量化

实习兼职研究型实习生地点:北京状态:招聘

任职要求


研究领域:
-目前正在攻读计算机科学或相关STEM领域的学士,硕士或博士学位
-具有一种或多种通用编程语言的经验,包括但不限于: Java,C/C ++ 、PythonJavaScriptGo
-具有上述研究领域的相关经验,包括行业经验或作为参与实验室研究
优先录用:
-对技术研究充满热情,具有产生新思想和创新的能力; 在自学,问题分析和解决方面表现出色
-在国际会议上或核心期刊发表一份或多份出版物或论文
-至少3个月的全职工作

工作职责


研究领域:
  人工智能
项目简介:
  面对多模态大模型训练部署成本昂贵、参数量庞大等问题,通过设计高效的网络结构、创新的压缩量化策略、简化的注意力机制等方案,缩减多模态大模型的计算量,并且让其更有效率地适用于下层应用,在保证下游任务准确度的同时实现更快的处理速度,具有更小的模型结构,从而提高部署后的吞吐量并降低时延。
包括英文材料
学历+
Java+
C+
Python+
JavaScript+
相关职位

logo of xiaohongshu
实习大模型

【职位描述】 我们是小红书安全风控平台部/算法策略组/内容安全组,目前专注于多模态大模型在多模态理解和内容安全场景的技术落地和产品预研,目前在相关数据&技术方向有一定的积累,并将长期持续投入。我们希望寻求优秀在读硕士生/博士生共同突破大模型在安全审核行业落地的技术挑战,作为实习生,你将有机会与产品、工程紧密合作,将研究算法应用到实际问题中,并解决有难度有价值的问题,促进领域前沿技术的发展。欢迎投递简历。该岗位的核心研究方向包括但不限于: 1. 基础多模态表征:主要研究小红书多模态数据(笔记)下的基础多模态表征工作,包括层次化表征、特征融合、自监督探索等,作为基础模型,支持多样化检索场景。 2. 通用多模态大模型:通用多模态大模型在安全领域理解相关研究,包括高效微调、多模态理解等。建立安全多模态基础模型。

logo of aliyun
实习阿里云研究型实习

当前,大规模模型正逐步向多模态方向发展。尤其是随着SORA、GPT-4o模型的问世,其热度达到了空前的水平。目前,业界已经发布了众多多模态模型,例如:CLIP、LLaVA、Qwen-VL、Qwen-VAL、DeepSeek-VL、AnyMAL、Claude3、GPT-4v、GPT-4o、Gemini1.5、Chameleon等。多模态模型的迅速发展,也带来了新的挑战,对训练框架的效率要求越来越高: 1、不同模态数据的异质性:不同模态(如图像、文本、音频、视频)有各自的编码器(encoder)和解码器(decoder),这对计算资源、显存和通信带宽的需求各不相同。训练框架需要能够适配不同模态的特点,实现高效调度和优化。 2、数据的多样性:处理的数据模态类型多样化(如纯文本、文本+图像、文本+音频、文本+视频+音频等),且模态内的数据也可能动态变化。例如,图像的数量和大小,音频的长度等都可能不同。 现有的训练框架和并行策略已经无法很好地满足当前多模态大模型的训练需求。因此,迫切需要对现有框架进行改进和优化,以支持多模态模型的高效训练。本项目将着眼于以下几个层面技术,以解决上述特性带来的挑战,提升多模态大模型训练效率: 1、多模态场景并行策略研究,以PP为例,当前的PP并行策略都是按layer粒度均分,但多模态间的异构性会给PP并行提出更高的要求,多模态场景下不同模态的计算、显存需求不同。需要打破layer级别的粒度,支持细粒度PP划分和调度,探寻更高效的PP并行策略。 2、动态长序列场景高效训练技术研究,多模态场景总序列长度会比llm场景长很多,并且不同模态的seq len长度还是动态,在动态长序列场景怎么进行高效训练。

更新于 2025-02-07
logo of antgroup
实习研究型实习生

研究领域: 深度学习 项目简介: 在商品领域风险/质量防控、信息抽取、素材优化、营销文案生成和人货匹配推荐等多个场景都依赖对商品的认知,传统的方法需要运营人工定义标签体系并收集大量的标注数据,多模态大模型可以在较少的人力投入和标注成本下实现更好的商品理解和生成,有很大的应用前景。

logo of tongyi
实习通义研究型实习生

我们正在寻找对多模态大模型技术充满热情的研究工程师/科学家,加入我们的团队,共同探索前沿技术并推动其在实际场景中的应用。你将专注于文本、视觉、音频等多模态的联合建模与创新开发,致力于打造下一代人工智能解决方案。 核心职责: 1、多模态联合建模 -研究文本、视觉、音频的联合训练范式,在多模态融合中保持并提升文本推理能力。 -探索多模态框架下的跨模态对齐与交互机制,优化模型的表现与效率。 2、音频生成与理解 -开发高表现力情感对话生成技术,实现自然、流畅的语音合成效果。 -研究音频与音效的统一建模方法,支持多模态音频风格转换等创新任务。 -探索音频与视觉模态的深度理解,包括音频情感、背景环境信息的解析及音视频内容的联合理解。 3、音频表征学习 -研究音频表征的离散化编码方法,设计低帧率、高效率的语音与音频联合建模方案。 -探索更高效的音频特征提取与表示方式,为下游任务提供高质量输入。 4、多模态推理优化 -研究多模态大模型的深度推理能力,优化Chain-of-Thought(CoT)推理的耗时与性能。 -探索复杂推理任务的解决方案,提升模型在多模态场景下的逻辑推理与决策能力。 5、技术创新与落地 -持续跟踪学术前沿动态,结合实际需求提出创新性技术方案。 -推动研究成果的实际应用,参与从算法设计到产品落地的全流程。

更新于 2025-04-23