logo of aliyun

阿里云研究型实习生 - AI和LakeHouse时代的HTAP查询性能优化研究

实习兼职阿里云研究型实习生地点:杭州状态:招聘

任职要求


1. 对数据分析领域有充分的热情,坚持做solid,可落地的研究;
2. 计算机科学、软件工程或相关专业博士、优异的研究型硕士;
3. 扎实的工程能力,有过复杂系统的调优经验。

加分项:
1. 擅长算法数据结构,在OI/ACM比赛中获得过突出成绩;
2. 在数据库和系统领域发表过论文,包括不限于SIGMOD、VLDB、ICDE、 OSDI、 SOSP;
3. 热衷于开源社区,给开源数据分析产品(DuckDB、Velox、ClickHouseApache Doris等)贡献过性能优化相关的提交;
4. 对LLM(训练/推理/领域适配)等重点场景的系统优化或前沿算法有深入务实的经验。

工作职责


Stonebraker在SIGMOD上对数据库发展20年进行了回顾:尽管过去二十年间KV、NoSQL、MapReduce等技术多次对SQL系统发起挑战,但其生命力却愈发蓬勃——这种""不断兼并挑战者""的韧性,恰恰印证了关系型数据库在数据管理领域的统治力。
其根本的底层逻辑是:随着内存容量突破TB级、NVMe SSD延迟进入微秒时代,硬件工艺的指数级跃迁,曾经为性能瓶颈而生的专用数据处理系统(如OLAP、时序数据库)正呈现大一统趋势。
AI时代,人们比任何时候都更清醒地认识到——数据依然是驱动智能的核心,我们期待对底层研究富有激情的你共同探索数据处理的新范式。
1 期待你通过创新的方法实现SQL性能在新场景下的数量级的提升,将学术成果发表成CCF-A类论文,可进一步在阿里云落地和贡献给开源社区。
2 研究方向包括不限于:
 1) 多模态HTAP数据分析性能加速; 
 2) SQL在多模态场景下的语义扩展; 
 3) 探索SQL执行引擎范式,突破code gen和向量化执行等上一代执行模式;
 4) 针对新硬件设计新的SQL算子和数据结构。
包括英文材料
数据分析+
算法+
数据结构+
ClickHouse+
Apache+
Doris+
大模型+
相关职位

logo of aliyun
实习阿里云研究型实习

1. 优化和设计AI数据湖场景下的多层智能缓存架构和算法,使系统具备缓存动态分级、冷热数据预测、智能数据迁移等能力; 2. 分析数据湖查询和AI训练场景的负载特征,构建特征库,支持缓存效果实时反馈、动态优化和应用闭环; 3. 撰写技术方案、实验报告及学术论文,参与专利申请; 4. 与团队协作,完成和现有系统的对接与测试。

更新于 2025-07-02
logo of antgroup
实习研究型实习生

研究领域: 人工智能 项目简介: AI智能体以强大的自主规划执行能力和广阔的应用前景引发了科技界的密切关注和巨大投入。本项目重点关注智能体的能力突破,在以下领域深耕创新、探索前沿,打造Agent Native Model和AI Native的智能体产品。 1. UI Agent:AI自主完成复杂的Phone/Computer/Browser Use任务 2. 深度研究:AI自主完成通用的深度研究型的任务,动态规划、灵活调用多种工具或智能体 3. 安全深度分析:深入理解安全风控领域的任务要求,掌握领域工具,提供专业深度的分析、提前发现风险/治理漏洞

logo of aliyun
实习阿里云研究型实习

创新药等化合物的研制是非常困难且经济和时间花费都非常大的过程。近几年随着人工智能技术的快速发展,能够通过大量的数据对复杂的分子结构进行精准建模和预测,这一结果可以大大的帮助药物等化合物的研发提效,同时也为这一领域带来的新的机会。化合物的研发是一个系统性工作,结构预测是其中的重要一环,但还有几个重要且有趣的问题还没有被完全攻克。我们针对这一领域的其它三个重要问题进行探索研究和落地研发: 1、分子间的结合对接(docking)预测,这一问题要预测多个分子或化合物能够进行物理化学上的结合,准确的对接预测; 2、化合物的演化(directed evolution),这一问题要精准模拟合物的变种和筛选过程,通过智能化的手段来加速实验室条件下的化合物进化过程; 3、序列生成(reverse sequencing),这一问题是蛋白质结构预测的反问题,是通过一个已知的3维结构来生成蛋白序列,也可以通过生成式的模型来生成全新的蛋白质结构。 我们希望通过深入的研究探索智能技术在生命科学的结合点,推动变革这一行业的规则

更新于 2025-09-08
logo of aliyun
实习阿里云研究型实习

面向数据库结构化数据和文件系统非结构化数据,设计并实现一站式的高性能存储底座,优化海量存储场景下元数据库性能,具体研究内容包括但不限于: 1.基于数据库的大规模PB级别数据文件系统的文件metadata管理; 2.支持AI训练和推理的并行文件系统和数据库系统的性能优化; 3.数据库结构化数据和文件系统非结构化数据一站式融合和数据流动、索引构建和检索; 4.跨云并行文件系统。

更新于 2025-07-02