阿里云研究型实习生-多模态领域模型前沿技术研究
任职要求
1、完成领域多模态大模型关键技术问题的算法研发任务; 2、协助以上研发算法的技术沉淀和落地应用,实现模型…
工作职责
项目关注多模态大模型的前沿技术问题,特别是领域应用中的泛化能力不足,模型信息融合效率低,推理能力弱等关键问题,探索具备推理能力的、多模态高效融合的领域多模态大模型,沉淀可复制的技术方法,推动其在行业和领域的落地应用。 项目包含但不限于如下关键课题: 1、多模态推理技术研究:探索多模态推理数据构建与强化学习算法,关注多模态领域模型的协同推理机制,提升领域泛化能力; 2、模型原生架构探索:探索多模态数据协同处理的通用模型结构,实现跨模态数据的高效表征学习,探索理解与生成一体化的多模态大模型技术框架,进一步提升模型对领域泛化能力。
我们正在寻找对多模态大模型技术充满热情的研究工程师/科学家,加入我们的团队,共同探索前沿技术并推动其在实际场景中的应用。你将专注于文本、视觉、音频等多模态的联合建模与创新开发,致力于打造下一代人工智能解决方案。 核心职责: 1、多模态联合建模 -研究文本、视觉、音频的联合训练范式,在多模态融合中保持并提升文本推理能力。 -探索多模态框架下的跨模态对齐与交互机制,优化模型的表现与效率。 2、音频生成与理解 -开发高表现力情感对话生成技术,实现自然、流畅的语音合成效果。 -研究音频与音效的统一建模方法,支持多模态音频风格转换等创新任务。 -探索音频与视觉模态的深度理解,包括音频情感、背景环境信息的解析及音视频内容的联合理解。 3、音频表征学习 -研究音频表征的离散化编码方法,设计低帧率、高效率的语音与音频联合建模方案。 -探索更高效的音频特征提取与表示方式,为下游任务提供高质量输入。 4、多模态推理优化 -研究多模态大模型的深度推理能力,优化Chain-of-Thought(CoT)推理的耗时与性能。 -探索复杂推理任务的解决方案,提升模型在多模态场景下的逻辑推理与决策能力。 5、技术创新与落地 -持续跟踪学术前沿动态,结合实际需求提出创新性技术方案。 -推动研究成果的实际应用,参与从算法设计到产品落地的全流程。
RAG(检索增强生成)是一种将信息检索技术与大语言模型相结合的技术架构。它通过从海量文档中检索出与查询相关的信息,并将这些信息输入到大语言模型中,从而生成更准确且全面的回答或文本。然而,要实现生产级的RAG性能和可靠性,还需要面临诸多挑战。阿里云人工智能平台(PAI)团队专注于RAG平台的开发与持续优化,致力于推动企业级RAG在实际业务中的落地与应用。我们目前的研究和开发方向包括但不限于: 1. 查询理解与优化:提升对大语言模型的查询理解能力,优化召回机制及查询重排序算法。 2. 多模态的文档理解和问答生成:提升多模态文档(包括文本和图像等)的理解及问答生成能力。 3. 大模型Agent技术:提升基于大语言模型的Agent的任务规划和工具调用能力。 4. Text2SQL生成:优化从自然语言自动生成SQL查询的准确性。 5. RAG效果评估:构建benchmark和效果评估。
1. 探索研究多模态大模型、GUI agent、AI memory、多模态RAG等前沿技术。 2. 参与研发多模态、全模态大模型等下一代人工智能核心技术,探索面向真实环境的多模态智能体多轮强化学习,提升大模型能力。 3. 负责跟踪和研究多模态大模型前沿技术调研、落地、对业务进行优化。
【职位描述】 我们是小红书安全风控平台部/算法策略组/内容安全组,目前专注于多模态大模型在多模态理解和内容安全场景的技术落地和产品预研,目前在相关数据&技术方向有一定的积累,并将长期持续投入。我们希望寻求优秀在读硕士生/博士生共同突破大模型在安全审核行业落地的技术挑战,作为实习生,你将有机会与产品、工程紧密合作,将研究算法应用到实际问题中,并解决有难度有价值的问题,促进领域前沿技术的发展。欢迎投递简历。该岗位的核心研究方向包括但不限于: 1. 基础多模态表征:主要研究小红书多模态数据(笔记)下的基础多模态表征工作,包括层次化表征、特征融合、自监督探索等,作为基础模型,支持多样化检索场景。 2. 通用多模态大模型:通用多模态大模型在安全领域理解相关研究,包括高效微调、多模态理解等。建立安全多模态基础模型。