通义研究型实习生-多模态大模型技术探索

实习兼职通义研究型实习生2025-04-23地点：北京 | 杭州状态：招聘

扫码手机上打开

任职要求

基本要求：
1、学历背景
-计算机科学、人工智能、信号处理、机器学习等相关专业硕士及以上学历。
-具备扎实的数学基础和编程能力，熟悉深度学习理论与实践。
2、技术能力
-熟悉多模态大模型相关的技术原理，包括但不限于文本、视觉、音频联合建模的训练范式。
-深入理解音频生成、音频表征离散化编码、音视频模态理解等领域的关键技术。
-熟练掌握主流深度学习框架（如PyTorch、TensorFlow等），并具备实际开发经验。
-有较强的算法设计与优化能力，能够针对具体任务提出创新性解决方案。
3、研究经验
-在多模态大模型领域有相关研究或项目经验，能够独立开展前沿技术探索。
-熟悉语音、音频、视觉等模态的基础理论，并能将其应用于实际问题中。

加分项：
1、科研经历
-有语音大模型或多模态大模型相关科研经历，熟悉学术前沿动态。
-以…

登录查看完整任职要求

微信扫码，1秒登录

工作职责

我们正在寻找对多模态大模型技术充满热情的研究工程师/科学家，加入我们的团队，共同探索前沿技术并推动其在实际场景中的应用。你将专注于文本、视觉、音频等多模态的联合建模与创新开发，致力于打造下一代人工智能解决方案。

核心职责：
1、多模态联合建模
-研究文本、视觉、音频的联合训练范式，在多模态融合中保持并提升文本推理能力。
-探索多模态框架下的跨模态对齐与交互机制，优化模型的表现与效率。
2、音频生成与理解
-开发高表现力情感对话生成技术，实现自然、流畅的语音合成效果。
-研究音频与音效的统一建模方法，支持多模态音频风格转换等创新任务。
-探索音频与视觉模态的深度理解，包括音频情感、背景环境信息的解析及音视频内容的联合理解。
3、音频表征学习
-研究音频表征的离散化编码方法，设计低帧率、高效率的语音与音频联合建模方案。
-探索更高效的音频特征提取与表示方式，为下游任务提供高质量输入。
4、多模态推理优化
-研究多模态大模型的深度推理能力，优化Chain-of-Thought（CoT）推理的耗时与性能。
-探索复杂推理任务的解决方案，提升模型在多模态场景下的逻辑推理与决策能力。
5、技术创新与落地
-持续跟踪学术前沿动态，结合实际需求提出创新性技术方案。
-推动研究成果的实际应用，参与从算法设计到产品落地的全流程。

📮 投递简历 ✨AI模拟面试

难度：

包括英文材料

学历+

机器学习+

深度学习+

还有更多 •••

登录查看完整学习资料

相关职位

研究型实习生-多模态领域模型前沿技术研究

实习阿里云研究型实习

项目关注多模态大模型的前沿技术问题，特别是领域应用中的泛化能力不足，模型信息融合效率低，推理能力弱等关键问题，探索具备推理能力的、多模态高效融合的领域多模态大模型，沉淀可复制的技术方法，推动其在行业和领域的落地应用。项目包含但不限于如下关键课题： 1、多模态推理技术研究：探索多模态推理数据构建与强化学习算法，关注多模态领域模型的协同推理机制，提升领域泛化能力； 2、模型原生架构探索：探索多模态数据协同处理的通用模型结构，实现跨模态数据的高效表征学习，探索理解与生成一体化的多模态大模型技术框架，进一步提升模型对领域泛化能力。

更新于 2025-09-16杭州

研究型实习生 - 面向多领域任务泛化的GUI Agent多轮强化学习方法研究

实习通义研究型实习生

1. 探索研究多模态大模型、GUI agent、AI memory、多模态RAG等前沿技术。 2. 参与研发多模态、全模态大模型等下一代人工智能核心技术，探索面向真实环境的多模态智能体多轮强化学习，提升大模型能力。 3. 负责跟踪和研究多模态大模型前沿技术调研、落地、对业务进行优化。

更新于 2025-11-12杭州

大模型研究型实习生

实习技术类

我们正在寻找一位对大模型技术充满热情、具备扎实理论基础和良好编程能力的研究型实习生，加入我们充满活力的团队，共同探索人工智能技术的未来。你将： 1.深入研究大模型相关前沿技术：包括但不限于大语言模型的预训练、Post-training、MOE（Mixture of Experts）、多模态大模型等，阅读最新论文，复现经典算法，探索大模型在B站各场景的应用潜力。 2.独立或协助完成大模型相关的技术探索：参与数据收集和预处理、模型训练和评估、结果分析和报告撰写等工作，为团队的研究成果和技术影响力贡献力量。我们提供： 1.充足的机器资源和数据支持：为你提供高性能计算资源和海量数据，助力你在大模型领域的研究探索。 2.丰厚的实习补贴和良好的工作环境：为你提供舒适的工作环境和具有竞争力的实习补贴。

更新于 2025-07-29上海

研究型实习生 - 视觉多模态模型的细粒度理解及对齐技术研究

实习阿里云研究型实习

多模态大模型技术（large multimodal models，LMM）是整个学术界和工业界的研究热点，但当前的主流技术方案在面对复杂的自然图像时，细粒度理解能力仍存在明显缺陷，大大限制了相关技术的行业落地。本项目拟研究解决多模态大模型中的视觉-文本细粒度理解及对齐问题，从而提升多模态大模型的视觉能力，推动其在各行业和专业领域的应用落地。项目包括但不限于如下待探索的细分关键研究方向：（1）细粒度图文对齐学习技术（Fine-grained image-text alignment）；（2）多模态上下文学习技术（Multi-modal in-context learning）；（3）多模态代理技术（Multi-modal agents）。

更新于 2024-07-12杭州