字节跳动实时数仓存储专家
任职要求
1、具备良好的 Java / Scala 编程基础和良好的计算机技术基础,同时具备良好的沟通能力和团队协作能力; 2、熟悉 Kafka,Pulsar,Pravega 等开源实时存…
工作职责
数据引擎-存储引擎团队,负责自研实时数仓存储服务的研发,实现一份存储同时满足流计算、批计算、交互式分析、点查等多种场景。团队内部有多名 Apache Committer,在国内外有较强的技术影响力,与众多优秀的大数据计算、存储领域专家一起合作,一起打造业界领先实时数仓存储服务。 职位描述: 1、打造业界领先的流批一体实时数仓存储服务,支撑支撑字节跳动众多核心业务线(如抖音,今日头条,电商); 2、负责消息存储引擎、KV 存储引擎等核心组件的内核研发; 3、负责实时数仓存储的生态研发,与 Flink,Presto,Spark 等计算引擎深度结合。
-根据市场需求和公司战略,制定数据仓库产品的长期发展规划和短期实施计划 -引导团队探索并应用最新的数据仓库技术,不断优化产品,提升用户体验 -负责项目的整体规划、执行监控及风险管理,确保项目按时按质完成 -设定数据仓库技术的长远发展方向,保持公司在行业内的技术领先地位
国际化外卖-配送策略架构方向, 为外卖配送提供了特征数据服务、策略工程和地理围栏等业务核心能力; 技术上包括了分布式存储框架,特征工程,策略模型架构等方向, 涉及流式计算框架、资源调度平台、特征工程,内存存储引擎研发等工作, 具备较强的业务效果要求和技术深度挑战;

1. 核心系统构建: 负责设计与搭建基于 Flink 的实时特征计算平台,保障其高可用、低延迟和高吞吐量。 2. 实时数仓与建模: 负责用户/item特征实时数仓的层次设计、模型开发与优化,构建主题明确、数据可信、易于复用的实时数据模型,为用户/物料特征计算提供高质量数据支撑。 3. 实时特征工程: 开发并优化实时特征管道(Feature Pipeline),包括行为序列、滑动窗口聚合、多流关联等复杂实时特征的加工与存储,为搜推模型提供高质量数据输入。 4. 平台保障与优化: 负责实时数据从接入、处理到输出全链路的稳定性保障、性能调优(如解决数据倾斜、反压问题)和故障排查,确保7x24小时服务稳定。 5. 技术演进: 研究并引入业界先进的流处理技术,解决超大数据量下的状态管理、窗口计算、精确一次语义(Exactly-Once)等技术挑战,推动平台技术架构持续演进。

1、包括实时数据采集计算、流式湖仓建设、现有平台架构调优、业务场景建模、数据产能提质增效。 2、应用场景:BI、OLAP、用户画像、群体分析、数据驱动等。 3、解决方案:基于Kafka、Flink的数据采集、流转、实时ETL平台建设; 基于Kyuubi、Trino、Doris、Hive、Hudi、Ceph、S3的流式湖仓建模、应用、维护; 4、Redis、MongoDB、ClickHouse、TiDB、Mysql等数据存储技术的应用。 技术能力: 1、SQL专家,精通复杂查询、性能优化、不同引擎SQL特性(必需); 2、精通数仓与数据湖架构设计及业务建模(必需); 3、熟悉ClickHouse、Doris、Trino、Kyuubi、Spark、Hive、S3等多类存储、计算引擎(必需)、掌握Python语言(必需)、掌握Kafka、Flink流计算平台、掌握Java/Scala语言