logo of aliyun

阿里云研究型实习生 - 向量化流计算数据库探索

实习兼职阿里云研究型实习生地点:北京状态:招聘

任职要求


候选人应为计算机及相关专业的博士或硕士研究生,且对数据库内核研发感兴趣;
最好有一定分布式系统/数据库系统相关研究和开发经验,了解 Flink 等开源大数据基本…
登录查看完整任职要求
微信扫码,1秒登录

工作职责


Flink 作为当前业界,学术界以及开源的流计算标准,团队承载了其技术演进,计算存储架构升级以及云上商业化等核心基建工作,是 Flink 在流计算方面保持与其他竞品领先性的主力核心团队。

实习招聘岗位职责如下:
1)Flash 向量化引擎研究探索工作。Flash 是学术界和业内首款向量化流计算引擎,完全兼容开源 Apache Flink。该项目作为阿里云公司级路标项目已于 2024 年9月云栖大会首发,对比开源 Flink有 5-10x 性能优势。虽然性能优势明显,但我们认为潜力远非如此。

2)Apache Flink 社区存储引擎和研发探索工作。参与 Apache Flink 社区 Flink 引擎存算分离架构升级,解决状态过大造成的计算存储捆绑成本变大,计算能力降低,稳定性降低,以及恢复慢等问题。这一工作是 Apache Flink 社区 2.0 的主打项目,首个版本将在 2025年1月发布,但对状态存储的探索远没有结束。

3)存算分离 ForSt DB 内核研发(Rust 岗位)。目前世界范围内尚未有一款内置开源 DB 能完成 上述 1)和 2)要解决的问题,因为我们从 0 到 1 打造的 ForSt DB 为此而生。本团队有 6 年以上 DB 内核研发经验,经过多年迭代,服务阿里集团全量实时计算业务并成为阿里云明星级产品(阿里云实时计算服务)
包括英文材料
内核+
分布式系统+
还有更多 •••
相关职位

logo of aliyun
实习阿里云研究型实习

专注于数据湖场景下向量化和多模态数据存储和分析系统的研究、探索和开发,具体职责包括: 1、探索和研究高效可扩展的向量索引和分级存储算法,支持超大规模向量数据存储和检索; 2、探索和研究高性能的多模态数据检索和查询算法,支持大数据AI一体化场景下的融合分析; 3、分析现有向量索引算法和典型负载的性能瓶颈,提出并实现创新的优化技术; 4、结合阿里云Milvus和EMR 产品服务,提供可靠高效的向量存储和检索方案,支持不同行业和规模的客户场景; 5、面向数据湖仓场景构建业界领先的多模态数据查询分析解决方案。

更新于 2025-06-26北京
logo of aliyun
实习阿里云研究型实习

文本检索广泛应用于行业搜索、全文检索、RAG(检索增强生成)等细分业务场景。 文本检索在召回侧由传统的稀疏文本匹配逐渐发展成向量化表示的稠密检索,以及稀疏稠密的混合检索,整体的检索效果也持续保持增长,仍有大量提升空间。 在排序侧,由于已经召回了高质量结果,仅仅需要对少量top k结果做重排序,可以用query与doc联合输入的cross attention架构Rerank模型,大幅提升最终的检索效果。

更新于 2024-07-25杭州
logo of aliyun
实习阿里云研究型实习

RAG(Retrieval-Augmented Generation)检索增强生成技术伴随着LLM技术爆发迅速发展,广泛应用于文档问答、智能客服、技术支持等实际业务场景。 在上述场景中,除了纯文本内容效果已经发展到一定水平,图片、表格、代码等多模态的内容的RAG还处于比较初级阶段,目前技术很难解决实际业务问题。 多模态RAG效果重要的效果瓶颈之一在于多模态检索技术,如何将多模态信息统一表征到同一个向量化空间中,结合向量检索技术提升多模态检索效果是很有挑战的问题。 除了上述场景,多模态RAG通过和音频、视频等模态的结合,必定还有更多的业务场景可以挖掘。

更新于 2024-07-25杭州
logo of aliyun
实习阿里云研究型实习

随着近些年机器学习与表征学习的发展,非结构化数据的查询和分析变得更加普遍。通过表征学习,我们可以把图片或文本嵌入到高维空间从而用高维向量来代表这些图片或文本。进一步的,通过在高维空间中查找最近邻,我们可以对非结构化数据进行语义搜索。例如,通过检索增强生成技术(RAG),我们可以将外部知识或领域知识进行向量化,利用向量空间中的近邻搜索得到对应的原始知识,对大语言模型的生成结果进行增强,来减少大模型出现幻觉或知识过时的现象。 为了提升数据库产品对AI应用的支持,阿里云瑶池数据库也全面提升了向量检索能力,在PolarDB、RDS、AnalyticDB、Lindorm、Tair等产品中集成了向量功能,实现结构化数据、半结构化数据、多模数据、向量数据的一体化处理。 然而,目前向量索引主要关注查询速度和准确率,对于实际复杂场景下的搜索问题还没有足够的研究。例如,分布式架构下的向量查询索引、结构化与非结构化数据的联合查询,以及数据动态增删场景下的索引优化等问题,都需要进一步探索和研究。

更新于 2024-07-15杭州