蚂蚁金服研究型实习生-基于多模大模型的高效、精准的内容信息压缩与表征技术研究
任职要求
研究领域: -目前正在攻读计算机科学或相关STEM领域的学士,硕士或博士学位 -具有一种或多种通用编程语言的经验,包括但不限于: Java,C/C ++ 、Python、JavaScript或Go -具有上述研究领域的相关经验,包括行业经验或作为参与实验室研究 优先录用: -对技术研究充满热情,具有产生新思想和创新的能力; 在自学,问题分析和解决方面表现出色 -在国际会议上或核心期刊发表一份或多份出版物或论文 -至少3个月的全职工作
工作职责
研究领域: 多媒体 项目简介: 在支付宝平台上,存在着海量的帖子、文章、评论、商品信息、社群内容、以及其他各种形式的数字化内容,如何有效地对这些内容进行压缩和表示,是提升信息处理效率和赋能下游应用的关键。现有内容表征方法面临以下挑战: 1. 表征效率低下: 传统方法往往难以有效处理海量内容数据,表征效率较低,计算成本高昂。 2. 表征能力不足: 难以有效捕捉内容中的关键语义信息和上下文关联,表征能力有限,难以满足复杂应用的需求。 3. 通用性差: 现有方法往往针对特定类型或特定模态的内容,通用性较差,难以适应多样化的应用场景。 计划研发研发一种通用和灵活的基于大模型架构的内容表征引擎,能够对海量、多模态内容进行高效压缩和精准表征,为下游应用提供统一、高效的信息处理基础。 - 助力内容认知和理解场景获取更为准确的表征输出 - 支持需要长上下文场景的表征应用 - 提升表征的泛化性、跨领域表征适配能力增强 - 可灵活用于支持各类跨模态、跨domain的表征匹配任务
Lindorm数据库的定位是AI时代的海量多模数据平台,目前Lindorm针对高并发在线、泛时序数据、搜索和AI几个主要业务场景提供了多模数据的存储、检索、分析与AI推理服务。如何实现针对多个不同业务场景下复杂各异数据模型的高效存储与处理,以及探索如何更好利用AI来对非结构化数据进行分析和理解,实现结构化数据与非结构化数据的融合处理,都存在巨大的挑战。如今AI技术发展迅速,我们希望能够进一步探索多模数据和AI结合的更多场景,将Lindorm数据库打造成AI应用的基础设施。 基于以上背景,本项目重点聚焦如下技术问题的研究: 1、探索如何在一个统一的数据库框架和底座下高效存储和处理包括宽表、时序、JSON、向量等复杂数据模型; 2、探索数据库如何更好地利用Data + AI来增强数据库分析和处理文本、图像、语音和视频等非结构化数据的能力,方便用户开发和部署AI应用,挖掘数据价值。
基于多核架构的数据库性能优化研究,具体职责包括: 1. 参与基于多核架构MySQL,PostgreSQL数据库的优化与实现,降低数据同步延迟和提升内存访问效率; 2. 构建并测试多核架构下MySQL,PostgreSQL的性能,确保其在高并发、低延迟场景下的性能优势,并根据实验结果进行迭代优化; 3. 与团队成员紧密合作,共同探索多核架构下MySQL,PostgreSQL等数据库中的最佳实践,推动技术创新与应用; 4. 负责制定详细的性能测试计划,分析原型系统的性能瓶颈,并提出有效的优化策略。
基于 RDMA/CXL 技术的分布式数据库性能优化研究,具体职责包括: 1. 参与基于RDMA/CXL技术的PolarDB for PostgreSQL分布式数据库的优化与实现,降低数据同步延迟和提升内存访问效率; 2. 构建并测试RDMA/CXL优化原型系统,确保其在高并发、低延迟场景下的性能优势,并根据实验结果进行迭代优化; 3. 与团队成员紧密合作,共同探索RDMA/CXL技术在分布式数据库中的最佳实践,推动技术创新与应用; 4. 负责制定详细的性能测试计划,分析原型系统的性能瓶颈,并提出有效的优化策略。