阿里云研究型实习生-多模态大模型软硬协同优化

实习兼职阿里云研究型实习生2025-10-14地点：杭州状态：招聘

扫码手机上打开

任职要求

1、博士在读，且发表过一篇以上的AI类CCF-A会议的文章；
2、熟悉AI深度学习和大模型原理和技术栈，有清晰的理解和认系统性的认知，熟悉AI部署和推理流程，hands-on操作过大模型的部署和性能分析，具备独立工程研发、性…

登录查看完整任职要求

微信扫码，1秒登录

工作职责

1、负责研究AI大模型的推理性能优化算法，优化大模型推理部署的算力和访存瓶颈，提升AI模型在GPU、AI加速器等硬件上部署性能效率，推动大模型普惠应用和高性价比的竞争力；
2、负责高性能软硬结合的大模型推理优化方法研究，在AI类业务场景尤其是大模型场景下，通过结合模型算法和硬件来充分挖掘软硬件协同的组合优化潜力，带来高价值的性能和成本优势；
3、负责研发业界SOTA的多模态大模型计算性能优化方法创新，增强技术壁垒，并在云的商业业务中产生核心价值。

📮 投递简历 ✨AI模拟面试

难度：

包括英文材料

深度学习+

大模型+

相关职位

研究型实习生-多模态大模型软硬协同优化

实习阿里巴巴研究型实

1、负责研究AI大模型的推理性能优化算法，优化大模型推理部署的算力和访存瓶颈，提升AI模型在GPU、AI加速器等硬件上部署性能效率，推动大模型普惠应用和高性价比的竞争力； 2、负责高性能软硬结合的大模型推理优化方法研究，在AI类业务场景尤其是大模型场景下，通过结合模型算法和硬件来充分挖掘软硬件协同的组合优化潜力，带来高价值的性能和成本优势； 3、负责研发业界SOTA的多模态大模型计算性能优化方法创新，增强技术壁垒，并在云的商业业务中产生核心价值。

更新于 2026-03-17杭州

研究型实习生-多模态大模型算法工程师

实习阿里巴巴研究型实

阿里巴巴达摩院医疗AI团队，面向多模态医疗大模型的前沿研究与应用落地，旨在构建能够理解和推理不同医疗模态信息（影像、文本、临床结构化数据等）的通用智能系统。研究方向包括但不限于： ● 多模态医疗大模型的架构设计、训练与优化 ● 医学影像（CT/MRI/超声、病理切片等）与医学文本（病历、检验报告等）的跨模态表示学习，多模态对齐，知识图谱增强 ● 医疗领域的视觉‑语言模型（VLM）、医学版GPT及多模态融合方法 ● 面向诊断与治疗决策的推理型模型和知识增强大模型 ● 少样本/零样本医疗任务泛化、可解释性与可信AI 我们拥有： ● 海量高质量、多模态临床数据（影像+文本+结构化信息） ● 充足算力资源（GPU不限，集群规模支持超大模型训练） ● 与国内外顶级医院、知名医学专家的长期科研合作 ● 在顶级会议与期刊（Nature子刊、TMI、MICCAI、CVPR、NeurIPS等）的高影响力成果这是一个将AI大模型与医疗健康结合、面向未来的研究机会。

更新于 2026-06-08杭州

研究型实习生 - 多模态大模型高效训练技术研究

实习阿里巴巴研究型实

当前，大规模模型正逐步向多模态方向发展。尤其是随着SORA、GPT-4o模型的问世，其热度达到了空前的水平。目前，业界已经发布了众多多模态模型，例如：CLIP、LLaVA、Qwen-VL、Qwen-VAL、DeepSeek-VL、AnyMAL、Claude3、GPT-4v、GPT-4o、Gemini1.5、Chameleon等。多模态模型的迅速发展，也带来了新的挑战，对训练框架的效率要求越来越高： 1、不同模态数据的异质性：不同模态（如图像、文本、音频、视频）有各自的编码器（encoder）和解码器（decoder），这对计算资源、显存和通信带宽的需求各不相同。训练框架需要能够适配不同模态的特点，实现高效调度和优化。 2、数据的多样性：处理的数据模态类型多样化（如纯文本、文本+图像、文本+音频、文本+视频+音频等），且模态内的数据也可能动态变化。例如，图像的数量和大小，音频的长度等都可能不同。现有的训练框架和并行策略已经无法很好地满足当前多模态大模型的训练需求。因此，迫切需要对现有框架进行改进和优化，以支持多模态模型的高效训练。本项目将着眼于以下几个层面技术，以解决上述特性带来的挑战，提升多模态大模型训练效率： 1、多模态场景并行策略研究，以PP为例，当前的PP并行策略都是按layer粒度均分，但多模态间的异构性会给PP并行提出更高的要求，多模态场景下不同模态的计算、显存需求不同。需要打破layer级别的粒度，支持细粒度PP划分和调度，探寻更高效的PP并行策略。 2、动态长序列场景高效训练技术研究，多模态场景总序列长度会比llm场景长很多，并且不同模态的seq len长度还是动态，在动态长序列场景怎么进行高效训练。

更新于 2026-03-17北京

研究型实习生-多模态大模型中训练研究

实习研究型实习生

研究领域：大模型项目简介：近年来，AI多模态大模型在智能问答、图像生成、视频理解、医工交叉等领域表现出惊人的能力。多模态模型通过融合文本、图像、视频等多元数据，大大提升了AI的理解及生成能力。多模态大模型的训练通常经历预训练、中训练、后训练等阶段，其中中训练承上启下，承担跨模态对齐、长上下文扩展以及通用能力阶梯式增强等关键任务，是衔接预训练基础能力与后训练任务对齐、决定模型上限与下游表现的重要环节。随着应用场景的迅速扩展，多模态模型的数据收集、通用数据及评测体系建设、以中训练为核心的模型训练和自动评测成为模型研发迭代的基础环节。当前行业面临的挑战包括：1）高质量、多样化的多模态数据收集；2）标准化的数据标注体系建设；3）衔接预训练与后训练的高效多模态中训练与优化方法；4）科学、自动化的多模态模型评测技术。因此，本项目聚焦多模态大模型关键技术链路，以中训练为核心研究环节，系统开展数据收集、体系建设、中训练方法、表现评测等环节研究，推动多模态大模型的技术进步及落地应用。

更新于 2026-07-08北京|杭州