logo of aliyun

阿里云研究型实习生 - 向量数据库实际复杂场景下的搜索研究

实习兼职阿里云研究型实习生地点:杭州状态:招聘

任职要求


1、实现的原型系统及源码;
2、相关技术方案申请专利;
3、研究成果发表CCF-A类会议或期刊论文。

工作职责


随着近些年机器学习与表征学习的发展,非结构化数据的查询和分析变得更加普遍。通过表征学习,我们可以把图片或文本嵌入到高维空间从而用高维向量来代表这些图片或文本。进一步的,通过在高维空间中查找最近邻,我们可以对非结构化数据进行语义搜索。例如,通过检索增强生成技术(RAG),我们可以将外部知识或领域知识进行向量化,利用向量空间中的近邻搜索得到对应的原始知识,对大语言模型的生成结果进行增强,来减少大模型出现幻觉或知识过时的现象。
为了提升数据库产品对AI应用的支持,阿里云瑶池数据库也全面提升了向量检索能力,在PolarDB、RDS、AnalyticDB、Lindorm、Tair等产品中集成了向量功能,实现结构化数据、半结构化数据、多模数据、向量数据的一体化处理。
然而,目前向量索引主要关注查询速度和准确率,对于实际复杂场景下的搜索问题还没有足够的研究。例如,分布式架构下的向量查询索引、结构化与非结构化数据的联合查询,以及数据动态增删场景下的索引优化等问题,都需要进一步探索和研究。
包括英文材料
相关职位

logo of aliyun
实习阿里云研究型实习

1.研发新一代向量数据压缩存储格式; 2.设计基于JIT的索引快速预热机制; 3.优化磁盘-内存-GPU数据传输流水线; 4.开发分布式一致性内存管理组件。

更新于 2025-07-02
logo of aliyun
实习阿里云研究型实习

专注于数据湖场景下向量化和多模态数据存储和分析系统的研究、探索和开发,具体职责包括: 1、探索和研究高效可扩展的向量索引和分级存储算法,支持超大规模向量数据存储和检索; 2、探索和研究高性能的多模态数据检索和查询算法,支持大数据AI一体化场景下的融合分析; 3、分析现有向量索引算法和典型负载的性能瓶颈,提出并实现创新的优化技术; 4、结合阿里云Milvus和EMR 产品服务,提供可靠高效的向量存储和检索方案,支持不同行业和规模的客户场景; 5、面向数据湖仓场景构建业界领先的多模态数据查询分析解决方案。

更新于 2025-06-26
logo of antgroup
实习研究型实习生

研究领域: 人工智能 项目简介: 项目背景描述 System For Foundation Models:大模型推理需要不同于传统云计算微服务不同的基础设施,包括但不限于推理引擎、异构计算框架、向量数据库、缓存系统、高可用架构等等,本课题旨在探索基础设施新技术、新优化、新算法,已取得最佳大模型推理性能和稳定性。 项目价值描述 本项目旨在通过优化大模型推理服务基础设施性能和稳定性,提升大模型推理性能,提升SLA,减少大模型部署成本,降低业务侧感知的服务延迟。

logo of aliyun
实习阿里云研究型实习

Lindorm数据库的定位是AI时代的海量多模数据平台,目前Lindorm针对高并发在线、泛时序数据、搜索和AI几个主要业务场景提供了多模数据的存储、检索、分析与AI推理服务。如何实现针对多个不同业务场景下复杂各异数据模型的高效存储与处理,以及探索如何更好利用AI来对非结构化数据进行分析和理解,实现结构化数据与非结构化数据的融合处理,都存在巨大的挑战。如今AI技术发展迅速,我们希望能够进一步探索多模数据和AI结合的更多场景,将Lindorm数据库打造成AI应用的基础设施。 基于以上背景,本项目重点聚焦如下技术问题的研究: 1、探索如何在一个统一的数据库框架和底座下高效存储和处理包括宽表、时序、JSON、向量等复杂数据模型; 2、探索数据库如何更好地利用Data + AI来增强数据库分析和处理文本、图像、语音和视频等非结构化数据的能力,方便用户开发和部署AI应用,挖掘数据价值。

更新于 2024-07-15