
得物数据湖格式引擎研发专家
任职要求
【工程能力】扎实的计算机理论基础,精通Java/Scala开发(含并发编程/JVM原理/设计模式),追求卓越工程品质,具备出色的Debug与性能分析能力; 【领域能力】精通Java/Scala/C++任一语言,5年以上大数据系统研发经验(其中2年以上存储引擎开发经验),对Iceberg/Hudi/Delta Lake/Paimon/HBase/RocksDB等有源码贡献者优先;有数据湖大规模实践经验者优先; 【技术驱动】具备持续技术创新热情,能主动应对业务挑战,有较好的团队协作能力,具有强烈责任心与项目落地执行力。
工作职责
【核心技术研发】主导数据湖格式引擎(Iceberg/Hudi/Delta Lake/Paimon)内核开发与性能调优,构建支持批流一体与高效增量处理的技术体系; 【业务支撑】主导生产集群疑难问题诊断与根因分析,协同运维保障平台高可用性,提供业务方全链路大数据平台使用支持; 【平台规划】参与计算平台技术架构演进设计,提升湖仓一体能力,基于云原生IAAS或自建IAAS构建高可靠、高性能、低成本的计算基础设施;
数据引擎-数据湖团队,旨在打造业界领先的 EB 级超大规模数据湖,支持字节跳动众多业务线,如抖音、今日头条、电商。同时基于内部最佳实践,在火山引擎上打造一款云原生实时湖仓一体的 toB 产品——湖仓一体分析服务LAS(LakeHouse Analytics Service)。 职位描述: 1、打造业界领先的基于 HUDI 构建的 EB 级湖仓一体解决方案,支撑字节跳动众多核心业务线(如抖音,今日头条,电商)和 ToB 业务; 2、负责围绕数据湖构建一站式全托管优化服务,数据湖内核的极致优化,以及流批一体的数据湖加速层的设计与研发; 3、负责数据湖存储的生态研发,与 Spark、Flink、Presto、Hive 等计算引擎深度结合; 4、与开源社区紧密合作,持续构建开源影响力,有机会成长为 HUDI committer / PMC。
⁃ 解决千亿级元数据索引效率的问题,支撑海量文件的查询访问效率以及元数据扩展性问题,提供性能卓越扩展良好的元数据服务。 ⁃ 高效的blob存储格式,编写高质量、可扩展、高可用、性能卓越的存储底层核心模块,对模块质量负责。 ⁃ 负责性能IO链路,对小文件聚合、大文件切片、EC编码等核心功能负责。 ⁃ 基于业界主流的AI训练加速方案,打造符合蚂蚁特点的高性能AI存储/缓存产品,为大模型、海量多模态数据的高并发训练提供存储底座,为AI算力持续增长提供基础设施侧保障。 ⁃ 负责存储产品的长期技术演进及稳定性保障,对上层业务效果负责。
1、打造业界领先的基于HUDI构建的EB级湖仓一体解决方案,支撑字节跳动众多核心业务线(如抖音,今日头条,电商)和ToB业务; 2、负责围绕数据湖构建一站式全托管优化服务,数据湖内核的极致优化,以及流批一体的数据湖加速层的设计与研发; 3、负责数据湖存储的生态研发,与Spark、Flink、Presto、Hive等计算引擎深度结合; 4、与开源社区紧密合作,持续构建开源影响力,有机会成长为HUDI Committer/PMC。