字节跳动实时数仓存储专家
社招全职A55693地点:杭州状态:招聘
任职要求
1、具备良好的 Java / Scala 编程基础和良好的计算机技术基础,同时具备良好的沟通能力和团队协作能力; 2、熟悉 Kafka,Pulsar,Pravega 等开源实时存…
登录查看完整任职要求
微信扫码,1秒登录
工作职责
数据引擎-存储引擎团队,负责自研实时数仓存储服务的研发,实现一份存储同时满足流计算、批计算、交互式分析、点查等多种场景。团队内部有多名 Apache Committer,在国内外有较强的技术影响力,与众多优秀的大数据计算、存储领域专家一起合作,一起打造业界领先实时数仓存储服务。 职位描述: 1、打造业界领先的流批一体实时数仓存储服务,支撑支撑字节跳动众多核心业务线(如抖音,今日头条,电商); 2、负责消息存储引擎、KV 存储引擎等核心组件的内核研发; 3、负责实时数仓存储的生态研发,与 Flink,Presto,Spark 等计算引擎深度结合。
包括英文材料
Java+
https://www.youtube.com/watch?v=eIrMbAQSU34
Master Java – a must-have language for software development, Android apps, and more! ☕️ This beginner-friendly course takes you from basics to real coding skills.
Scala+
Kafka+
https://developer.confluent.io/what-is-apache-kafka/
https://www.youtube.com/watch?v=CU44hKLMg7k
https://www.youtube.com/watch?v=j4bqyAMMb7o&list=PLa7VYi0yPIH0KbnJQcMv5N9iW8HkZHztH
In this Apache Kafka fundamentals course, we introduce you to the basic Apache Kafka elements and APIs, as well as the broader Kafka ecosystem.
Pulsar+
https://pulsar.apache.org/docs/next/functions-develop-tutorial/
Write a function for word count.
https://www.baeldung.com/apache-pulsar
Apache Pulsar is a distributed open source Publication/Subscription based messaging system developed at Yahoo.
https://www.youtube.com/watch?v=TKs5T6N78Tc
Discover the seven key features of Apache Pulsar that make it perfect for providing a centralized messaging & data streaming service for an Enterprise.
HBase+
[英文] HBase Tutorial
https://www.tutorialspoint.com/hbase/index.htm
HBase is a data model that is similar to Google's big table designed to provide quick random access to huge amounts of structured data. This tutorial provides an introduction to HBase, the procedures to set up HBase on Hadoop File Systems, and ways to interact with HBase shell.
还有更多 •••
相关职位

社招3年以上技术类
1. 核心系统构建: 负责设计与搭建基于 Flink 的实时特征计算平台,保障其高可用、低延迟和高吞吐量。 2. 实时数仓与建模: 负责用户/item特征实时数仓的层次设计、模型开发与优化,构建主题明确、数据可信、易于复用的实时数据模型,为用户/物料特征计算提供高质量数据支撑。 3. 实时特征工程: 开发并优化实时特征管道(Feature Pipeline),包括行为序列、滑动窗口聚合、多流关联等复杂实时特征的加工与存储,为搜推模型提供高质量数据输入。 4. 平台保障与优化: 负责实时数据从接入、处理到输出全链路的稳定性保障、性能调优(如解决数据倾斜、反压问题)和故障排查,确保7x24小时服务稳定。 5. 技术演进: 研究并引入业界先进的流处理技术,解决超大数据量下的状态管理、窗口计算、精确一次语义(Exactly-Once)等技术挑战,推动平台技术架构持续演进。
更新于 2025-10-20北京|上海
社招8年以上ACG
-根据市场需求和公司战略,制定数据仓库产品的长期发展规划和短期实施计划 -引导团队探索并应用最新的数据仓库技术,不断优化产品,提升用户体验 -负责项目的整体规划、执行监控及风险管理,确保项目按时按质完成 -设定数据仓库技术的长远发展方向,保持公司在行业内的技术领先地位
更新于 2024-07-19北京
社招5年以上技术
国际化外卖-配送策略架构方向, 为外卖配送提供了特征数据服务、策略工程和地理围栏等业务核心能力; 技术上包括了分布式存储框架,特征工程,策略模型架构等方向, 涉及流式计算框架、资源调度平台、特征工程,内存存储引擎研发等工作, 具备较强的业务效果要求和技术深度挑战;
更新于 2025-09-19北京