logo of antgroup

蚂蚁金服研究型实习生-原生多模态大模型

实习兼职研究型实习生地点:北京 | 上海 | 杭州状态:招聘

任职要求


研究领域:
-目前正在攻读计算机科学或相关STEM领域的学士,硕士或博士学位
-具有一种或多种通用编程语言的经验,包括但不限于: Java,C/C ++ 、PythonJavaScriptGo
-具有上述研究领域的相关经验,包括行业经验或作为参与实验室研究
优先录用:
-对技术研究充满热情,具有产生新思想和创新的能力; 在自学,问题分析和解决方面表现出色
-在国际会议上或核心期刊发表一份或多份出版物或论文
-至少3个月的全职工作

工作职责


研究领域:
  人工智能
项目简介:
  原生多模态模型在设计时原生支持多模态,通过在音频、视频、图片、文本等多模态序列上进行预训练,可以理解、生成 或 操作 不同模态组合  ,原生多模态也被认为是继NLP大模型后实现AGI的必经之路。本课题主要研究原生多模态的核心问题, 包括但不限于:
1.  研究多个模态进行混合训练并实现各模态各任务均衡的方法
2. 研究理解和生成任务的统一框架,实现理解和生成任务的相互促进
3. 提升多模态in-context能力机制及提升多模态in-context learning能力
包括英文材料
学历+
Java+
C+
Python+
JavaScript+
Go+
相关职位

logo of antgroup
实习研究型实习生

研究领域: 人工智能 项目简介: 原生多模态大模型中的实时语音交互相对传统的端到端交付在对话延迟、模态融合等带来能力提升,但是语音多模态对话中的情感的识别和表达还没有形成完善方案,同时工具调用等能力也需要单独进行加训、提升。

logo of alibaba
实习淘天集团研究型实

1. 探索多模态大模型的高效训练,包括预训练、SFT、及RLHF等技术; 2. 探索高效的视觉编码器结构、对齐范式、训练策略、数据清洗、质量分级、数据合成等; 3. 探索原生多模态大模型的架构与训练范式; 4. 探索图像、视频、音频的全模态大模型; 5. 结合淘天业务,推动多模态大模型在搜索、推荐、广告等业务中的应用。

更新于 2025-08-14
logo of aliyun
实习阿里云研究型实习

项目关注多模态大模型的前沿技术问题,特别是领域应用中的泛化能力不足,模型信息融合效率低,推理能力弱等关键问题,探索具备推理能力的、多模态高效融合的领域多模态大模型,沉淀可复制的技术方法,推动其在行业和领域的落地应用。 项目包含但不限于如下关键课题: 1、多模态推理技术研究:探索多模态推理数据构建与强化学习算法,关注多模态领域模型的协同推理机制,提升领域泛化能力; 2、模型原生架构探索:探索多模态数据协同处理的通用模型结构,实现跨模态数据的高效表征学习,探索理解与生成一体化的多模态大模型技术框架,进一步提升模型对领域泛化能力。

更新于 2025-09-16
logo of tongyi
实习通义研究型实习生

本项目旨在深入探索原生多模态视频生成的前沿技术,构建从内容生成到智能应用的完整技术闭环。具体研究课题包括但不限于: 1. 长视频生成: 重点研究能够生成分钟级长视频的算法,攻克生成过程中的稳定性与时序一致性难题,实现流畅、高质量的视频流输出。 2. 可控视频编辑与下游应用 : 开发基于自然语言、图像示例等指令的精细化视频编辑技术,实现对视频中对象、场景、风格的精准、一致性操控。 3. 人类反馈与强化学习: 包括但不限于基于规则的强化学习策略、高效 DPO 与 PPO 算法设计、基于用户反馈的RLHF 视频生成质量提升。

更新于 2025-09-12