logo of aliyun

阿里云研究型实习生-多模态领域模型前沿技术研究

实习兼职阿里云研究型实习生地点:杭州状态:招聘

任职要求


1、完成领域多模态大模型关键技术问题的算法研发任务;
2、协助以上研发算法的技术沉淀和落地应用,实现模型…
登录查看完整任职要求
微信扫码,1秒登录

工作职责


项目关注多模态大模型的前沿技术问题,特别是领域应用中的泛化能力不足,模型信息融合效率低,推理能力弱等关键问题,探索具备推理能力的、多模态高效融合的领域多模态大模型,沉淀可复制的技术方法,推动其在行业和领域的落地应用。

项目包含但不限于如下关键课题:
1、多模态推理技术研究:探索多模态推理数据构建与强化学习算法,关注多模态领域模型的协同推理机制,提升领域泛化能力;
2、模型原生架构探索:探索多模态数据协同处理的通用模型结构,实现跨模态数据的高效表征学习,探索理解与生成一体化的多模态大模型技术框架,进一步提升模型对领域泛化能力。
包括英文材料
大模型+
算法+
相关职位

logo of tongyi
实习通义研究型实习生

我们正在寻找对多模态大模型技术充满热情的研究工程师/科学家,加入我们的团队,共同探索前沿技术并推动其在实际场景中的应用。你将专注于文本、视觉、音频等多模态的联合建模与创新开发,致力于打造下一代人工智能解决方案。 核心职责: 1、多模态联合建模 -研究文本、视觉、音频的联合训练范式,在多模态融合中保持并提升文本推理能力。 -探索多模态框架下的跨模态对齐与交互机制,优化模型的表现与效率。 2、音频生成与理解 -开发高表现力情感对话生成技术,实现自然、流畅的语音合成效果。 -研究音频与音效的统一建模方法,支持多模态音频风格转换等创新任务。 -探索音频与视觉模态的深度理解,包括音频情感、背景环境信息的解析及音视频内容的联合理解。 3、音频表征学习 -研究音频表征的离散化编码方法,设计低帧率、高效率的语音与音频联合建模方案。 -探索更高效的音频特征提取与表示方式,为下游任务提供高质量输入。 4、多模态推理优化 -研究多模态大模型的深度推理能力,优化Chain-of-Thought(CoT)推理的耗时与性能。 -探索复杂推理任务的解决方案,提升模型在多模态场景下的逻辑推理与决策能力。 5、技术创新与落地 -持续跟踪学术前沿动态,结合实际需求提出创新性技术方案。 -推动研究成果的实际应用,参与从算法设计到产品落地的全流程。

更新于 2025-04-23北京|杭州
logo of aliyun
实习阿里云研究型实习

RAG(检索增强生成)是一种将信息检索技术与大语言模型相结合的技术架构。它通过从海量文档中检索出与查询相关的信息,并将这些信息输入到大语言模型中,从而生成更准确且全面的回答或文本。然而,要实现生产级的RAG性能和可靠性,还需要面临诸多挑战。阿里云人工智能平台(PAI)团队专注于RAG平台的开发与持续优化,致力于推动企业级RAG在实际业务中的落地与应用。我们目前的研究和开发方向包括但不限于: 1. 查询理解与优化:提升对大语言模型的查询理解能力,优化召回机制及查询重排序算法。 2. 多模态的文档理解和问答生成:提升多模态文档(包括文本和图像等)的理解及问答生成能力。 3. 大模型Agent技术:提升基于大语言模型的Agent的任务规划和工具调用能力。 4. Text2SQL生成:优化从自然语言自动生成SQL查询的准确性。 5. RAG效果评估:构建benchmark和效果评估。

更新于 2024-11-19杭州|上海
logo of tongyi
实习通义研究型实习生

1. 探索研究多模态大模型、GUI agent、AI memory、多模态RAG等前沿技术。 2. 参与研发多模态、全模态大模型等下一代人工智能核心技术,探索面向真实环境的多模态智能体多轮强化学习,提升大模型能力。 3. 负责跟踪和研究多模态大模型前沿技术调研、落地、对业务进行优化。

更新于 2025-11-12杭州
logo of alibaba
实习淘天集团研究型实

随着大语言模型(LLM)在搜推广领域的深入应用,如何高效地将海量商品/内容信息与世界知识结合,成为突破推荐算法上限的关键。 本岗位重点探索生成式推荐中的核心基础设施——语义ID(Semantic ID)的构建。致力于解决现有ID体系维度单一、表达受限的问题,探索语义ID更丰富的兴趣表达。 具体职责: 1. 前沿跟进:研究生成式推荐前沿技术,快速跟进RecSys/KDD/SIGIR/ACL等顶会最新论文,探索语义ID与LLM的更佳的应用范式,并且在实际业务数据上验证。 2. 多兴趣表征:深入研究协同&多模态语义协作机制,探索多兴趣表征构建,,解决多维兴趣样本在训练过程中的Loss拉扯问题,探索基于图或对比学习等改进方案,构建更稳健的Item-to-Token映射机制。 3. 多兴趣语义ID:突破现有层级化方案(如RQ-VAE/RQ-Kmeans)仅能进行单一维度(如类目或单兴趣)表达的局限,将多兴趣表征进行量化。 4. 生成式LLM赋能:将构建的多兴趣语义ID应用于推荐场景的生成式大模型(LLM)训练中,降低训练/推理成本,提升模型对用户复杂行为序列的理解与生成能力。 5. 技术沉淀:负责实验数据的分析与整理,撰写技术报告;若产出具有创新性的研究成果,支持以第一作者身份发表顶级会议论文或申请专利。

更新于 2026-01-27杭州