阿里巴巴研究型实习生-DataLake for AI
实习兼职阿里巴巴研究型实习生地点:北京状态:招聘
任职要求
1. 对Parquet、ORC、Lance等存储格式、Spark、Ray等计算引擎相关技术方向感兴趣或有相关经验; 2. 对基于非结构化数据的多模态大模型训练、推理过程等相关技术方向感兴趣或有相关经验; 3. 具备很好的自驱力,对新事物有好奇心,…
登录查看完整任职要求
微信扫码,1秒登录
工作职责
聚焦于面向AI的多模态数据湖,基于存算分离、流批一体架构,探索高效的样本、模型存储格式,构建高性能、灵活易用的多模态数据计算引擎,高效支持训练推理,打造业界领先的DataLake AI研发平台。 研究型实习生(Research Intern),围绕面向AI的多模态数据湖存储计算技术,开展原创性研究,在实际业务场景下进行实验,在SIGMOD、VLDB、ICDE等数据库领域或SOSP、OSDI等系统领域顶级会议期刊上发表高水平论文。
包括英文材料
Parquet+
https://www.youtube.com/watch?v=KLFadWdomyI
Learn all about Apache Parquet, a column-based file format that's popular in the Hadoop/Spark ecosystem.
Spark+
[英文] Learning Spark Book
https://pages.databricks.com/rs/094-YMS-629/images/LearningSpark2.0.pdf
This new edition has been updated to reflect Apache Spark’s evolution through Spark 2.x and Spark 3.0, including its expanded ecosystem of built-in and external data sources, machine learning, and streaming technologies with which Spark is tightly integrated.
还有更多 •••