logo of tongyi

通义研究型实习生-多模态大模型技术探索

实习兼职通义研究型实习生地点:北京 | 杭州状态:招聘

任职要求


基本要求:
1、学历背景
-计算机科学、人工智能、信号处理、机器学习等相关专业硕士及以上学历。
-具备扎实的数学基础和编程能力,熟悉深度学习理论与实践。
2、技术能力
-熟悉多模态大模型相关的技术原理,包括但不限于文本、视觉、音频联合建模的训练范式。
-深入理解音频生成、音频表征离散化编码、音视频模态理解等领域的关键技术。
-熟练掌握主流深度学习框架(如PyTorchTensorFlow等),并具备实际开发经验。
-有较强的算法设计与优化能力,能够针对具体任务提出创新性解决方案。
3、研究经验
-在多模态大模型领域有相关研究或项目经验,能够独立开展前沿技术探索。
-熟悉语音、音频、视觉等模态的基础理论,并能将其应用于实际问题中。

加分项:
1、科研经历
-有语音大模型或多模态大模型相关科研经历,熟悉学术前沿动态。
-以第一作者身份在A类会议(语音含INTERSPEECH、ICASSP)或顶级期刊上发表过论文者优先。
2、实习经历
-有互联网公司或相关领域的实习经历,并参与过实际项目产出,尤其是多模态技术相关的项目。
3、技术成果
-参与过开源项目或有个人技术博客,能够展示自己在多模态领域的技术积累。
-在音频生成、音视频模态理解、多模态推理等领域有过实际落地经验者优先。
4、其他能力
-熟悉分布式训练、模型压缩与加速技术,能够在资源受限环境下优化模型性能。
-对CoT(Chain-of-Thought)推理或其他复杂推理任务有深入研究或实践经验。

我们希望你:
-对多模态大模型技术充满热情,愿意在这一领域深耕发展。
-善于发现问题并提出创新性解决方案,推动技术突破与产品落地。
-具备良好的职业素养,能够在快节奏的工作环境中保持高效输出。

工作职责


我们正在寻找对多模态大模型技术充满热情的研究工程师/科学家,加入我们的团队,共同探索前沿技术并推动其在实际场景中的应用。你将专注于文本、视觉、音频等多模态的联合建模与创新开发,致力于打造下一代人工智能解决方案。

核心职责:
1、多模态联合建模
-研究文本、视觉、音频的联合训练范式,在多模态融合中保持并提升文本推理能力。
-探索多模态框架下的跨模态对齐与交互机制,优化模型的表现与效率。
2、音频生成与理解
-开发高表现力情感对话生成技术,实现自然、流畅的语音合成效果。
-研究音频与音效的统一建模方法,支持多模态音频风格转换等创新任务。
-探索音频与视觉模态的深度理解,包括音频情感、背景环境信息的解析及音视频内容的联合理解。
3、音频表征学习
-研究音频表征的离散化编码方法,设计低帧率、高效率的语音与音频联合建模方案。
-探索更高效的音频特征提取与表示方式,为下游任务提供高质量输入。
4、多模态推理优化
-研究多模态大模型的深度推理能力,优化Chain-of-Thought(CoT)推理的耗时与性能。
-探索复杂推理任务的解决方案,提升模型在多模态场景下的逻辑推理与决策能力。
5、技术创新与落地
-持续跟踪学术前沿动态,结合实际需求提出创新性技术方案。
-推动研究成果的实际应用,参与从算法设计到产品落地的全流程。
包括英文材料
学历+
机器学习+
深度学习+
大模型+
PyTorch+
TensorFlow+
算法+
相关职位

logo of aliyun
实习阿里云研究型实习

项目关注多模态大模型的前沿技术问题,特别是领域应用中的泛化能力不足,模型信息融合效率低,推理能力弱等关键问题,探索具备推理能力的、多模态高效融合的领域多模态大模型,沉淀可复制的技术方法,推动其在行业和领域的落地应用。 项目包含但不限于如下关键课题: 1、多模态推理技术研究:探索多模态推理数据构建与强化学习算法,关注多模态领域模型的协同推理机制,提升领域泛化能力; 2、模型原生架构探索:探索多模态数据协同处理的通用模型结构,实现跨模态数据的高效表征学习,探索理解与生成一体化的多模态大模型技术框架,进一步提升模型对领域泛化能力。

更新于 2025-09-16
logo of bilibili
实习技术类

我们正在寻找一位对大模型技术充满热情、具备扎实理论基础和良好编程能力的研究型实习生,加入我们充满活力的团队,共同探索人工智能技术的未来。你将: 1.深入研究大模型相关前沿技术: 包括但不限于大语言模型的预训练、Post-training、MOE(Mixture of Experts)、多模态大模型等,阅读最新论文,复现经典算法,探索大模型在B站各场景的应用潜力。 2.独立或协助完成大模型相关的技术探索: 参与数据收集和预处理、模型训练和评估、结果分析和报告撰写等工作,为团队的研究成果和技术影响力贡献力量。 我们提供: 1.充足的机器资源和数据支持: 为你提供高性能计算资源和海量数据,助力你在大模型领域的研究探索。 2.丰厚的实习补贴和良好的工作环境: 为你提供舒适的工作环境和具有竞争力的实习补贴。

更新于 2025-07-29
logo of aliyun
实习阿里云研究型实习

多模态大模型技术(large multimodal models,LMM)是整个学术界和工业界的研究热点,但当前的主流技术方案在面对复杂的自然图像时,细粒度理解能力仍存在明显缺陷,大大限制了相关技术的行业落地。本项目拟研究解决多模态大模型中的视觉-文本细粒度理解及对齐问题,从而提升多模态大模型的视觉能力,推动其在各行业和专业领域的应用落地。项目包括但不限于如下待探索的细分关键研究方向:(1)细粒度图文对齐学习技术(Fine-grained image-text alignment);(2)多模态上下文学习技术(Multi-modal in-context learning);(3)多模态代理技术(Multi-modal agents)。

更新于 2024-07-12
logo of alibaba
实习淘天集团研究型实

1. 负责提升电商B2B场景下,多模态大模型对用户超长个性化上下文建模能力。 2. 负责基于强化学习提升大模型多步骤工具调用能力,实现亿人亿面用户仿真能力。 3. 构建大模型的角色扮演能力,构建高保真用户模拟器及评估体系,提升Agent训练效率。 4. 负责LLM的前沿技术探索,沉淀可复用的垂域Agent体系化构建方案。

更新于 2025-08-05