阿里云研究型实习生 - 云原生向量数据库与向量索引优化
任职要求
1、计算机科学博士/硕士在读,在数据库、人工智能、系统等领域有顶会论文发表经验优先; 2、熟悉 C/C++ 或 Rust 语言…
工作职责
1、研发新一代面向量数据索引和量化算法; 2、基于云原生存储架构,提升向量索引和检索性能; 3、将业界领先的算法落地在 PolarDB 云原生数据库中。
随着数据量的爆炸性增长以及业务复杂性的增加,诸如图、文档、时空、时序等非结构化数据类型规模和价值都越发重要。需要研究更有效率的非结构化数据的处理、存储、分析的技术,尤其是与结构化数据融合进行分析的手段,将来自不同来源、格式、结构或模型的数据整合到一个统一的系统中,以实现数据共享、分析和决策支持。 我们的研究内容包括: 1. GPU加速的多模态数据处理,如fts、向量检索以及索引建立。GPU高效池化以及远程GPU调用,查询算子以及后台数据重整任务的高效远程GPU卸载; 2. 非结构化数据,如json、文档等自动语义发现与解析、数据模式匹配与语义对齐、对象关联分析。结合NLP等技术,实现从原始数据到结构化语义的高效转化; 3. OLTP高效入湖。结合数据湖的灵活性(存储非结构化数据)与数据仓库的结构化管理能力(如ACID、事务支持、元数据管理),通过存储层创新、计算引擎优化和云原生技术,实现不同业务的高效协同。
1.研发新一代向量数据压缩存储格式; 2.设计基于JIT的索引快速预热机制; 3.优化磁盘-内存-GPU数据传输流水线; 4.开发分布式一致性内存管理组件。
【业务介绍】 作为公司统一的机器学习平台团队,负责调度公司所有模型训练与推理资源;基于自建的训推引擎,构建公司统一的机器学习平台,为公司所有算法同学(稀疏 & 稠密,含 LLM) 模型迭代提供端到端的一站式服务;包括 数据生产,模型训练,模型上线,特征管理,模型测试,资源管控等一系列能力。 【岗位职责】 1、负责机器学习链路,离在线数据相关的开发工作,包括样本数据、特征数据等的数据链路搭建、任务运维和调优、性能优化等 2、负责小红书大规模机器学习平台的后台系统设计和开发工作;包括样本平台,特征平台,训练平台,推理平台等AI应用后台建设等; 3、研究分析业内AI平台产品,优化技术方案,改进产品功能,完善产品体验。
大模型具备很强的泛化及理解世界能力,在小红书内的众多生产场景遍地开花,大模型的训练和部署已成为许多算法工程师的日常。在多团队、多业务频繁使用的大规模GPU集群上,如何能够通过高效的GPU调度策略,使大家不仅能丝滑地完成训练及部署任务,同时也能充分激发大规模GPU集群的效能,是行业公认的关键挑战。在这里,你可以聚焦LLM场景,接触到超大规模GPU集群,并使用真实负载数据进行深入分析及技术探索。欢迎加入我们,一起探索领先技术改变世界! 工作职责: 1、负责万卡规模GPU集群效能分析及优化,通过调度策略优化、在离线混部、集群调度、GPU虚拟化、故障快速恢复、存储&网络加速等手段,提升大规模GPU集群的整体使用效率。 2、负责构建面向大模型训练、微调、推理、部署全流程LLMOps,与下游云原生平台深度融合,支撑大模型在公司内各业务生产链路稳定高效地落地。 3、持续关注业界最新的GPU资源调度相关技术动态,探索建设业界领先的资源调度策略及方法,构建下一代大规模AI资源调度系统。