知乎实时数仓开发工程师
任职要求
1、实时数据开发及数据应用经验,计算机科学与技术相关专业,本科及以上学历(优先); 2、具备扎实的 Java/Scala 基础,具备较强编码能力,精通 SQL; 3、熟练掌握 Flink、Kafka、Doris、redis等实时组件,有 Hive/Spark/Hbase等Hadoop生态圈组件的开发和使…
工作职责
1、负责知乎业务离线数据仓库建设与优化和实时数据仓库建设与维护; 2、负责知乎业务数据支持,需要深刻理解业务、抽象模型,高效支持业务; 3、参与大数据模型建设和开发落地、实时数仓架构设计,保障数据质量和服务稳定。
1、负责数据仓库模型迭代以及数据仓库应用产品的设计和开发; 2、负责各项常规数据需求/看板的搭建和维护,建立例行的数据监控机制; 3、负责对业务关键数据进行统计分析,提出具有建设性的建议及分析报告; 4、参与专题分析,对业务模型抽象、数据模型设计开发,通过深层次的数据挖掘发现问题,驱动业务。
1.参与小象离线和实时数仓开发,沉淀数据资产。 2.联合产品、商分等部门,高质高效交付业务需求。 3.深入理解生鲜自营即时零售业务,推动数据应用建设,提升业务决策质量和效率。
职位描述: 1. 负责Flink/Iceberg/Kafka/Pulsar等实时计算核心组件的开发,持续提升功能,性能与稳定性。 2. 基于实时计算组件与平台,为业务提供高质量的流计算服务。并主动分析持续针对下游业务进行稳定性,性能与成本方面的优化工作。 3. 负责一定的运维开发工作,为实时计算组件提供完善的指标/告警体系,容量管理等功能。 4. 参与数据湖相关平台与业务的开发。
1. 数仓架构设计与建模 - 参与数据仓库分层设计,主导或独立完成核心业务线/主题域的模型设计。 - 优化数据链路性能,解决数据倾斜、小文件等问题,降低存储与计算成本。 2. ETL开发与优化 - 负责离线/实时数据抽取、清洗、转换流程开发,熟练使用Hive/Spark/Flink等工具,保障数据准确性与时效性。 - 设计高效调度方案,监控ETL任务稳定性,优化资源消耗(如存储、计算、网络)。 3. 数据治理与质量保障 - 制定数据规范(命名、指标口径等),推动主数据管理、元数据治理,提升数据易用性。 - 建立数据质量监控体系,通过DQC工具或自定义规则识别异常,推动问题闭环。 4. 业务支持与数据分析 - 与业务团队紧密协作,理解需求并抽象数据指标,支撑BI报表、数据可视化及AI训练数据层建设。 - 参与数据产品规划,提供底层数据支持,推动数据驱动业务决策。 5. 技术研究与创新 - 跟踪数仓新技术(如Apache Paimon等),优化现有架构或引入新工具提升效率。