字节跳动高级数据仓库开发工程师(杭州)
社招全职5年以上A01882地点:杭州状态:招聘
任职要求
1、计算机相关专业本科及以上学历; 2、5年及以上数据仓库研发经验,具有从0到1搭建企业级数仓的经验; 3、扎实的数据仓库理论基础,熟悉维度数据仓库模型设计,应用层建设有比较丰富的经验,具有Data Vault建模实际经验优先; 4、具备海量数据加工处理(ETL)及运维相关经验,灵活运用各类SQL实现数据ETL加工处理; 5、熟悉Hadoop生态相关技术并有相关实践经验,具备hsql、spark-sql调优经验; 6、良好的逻辑思维和沟通能力,对代码和设计质量有严格要求,重视Code Review,知道良好的编程习惯的标准; 7、具有互联网金融行业从业经验、有信贷、支付、保险业务经验者优先。
工作职责
1、主导财经业务相关主题的分布式数据仓库规划、设计、落地及运营; 2、主导财经数据资产公共层建设,从工具和效果上实现敏捷智能的目标; 3、深入了解业务,主动优化数据仓库实现数据治理与迭代闭环,不断提升数据质效。
包括英文材料
学历+
数据仓库+
https://www.youtube.com/watch?v=9GVqKuTVANE
From Zero to Data Warehouse Hero: A Full SQL Project Walkthrough and Real Industry Experience!
https://www.youtube.com/watch?v=k4tK2ttdSDg
Vault+
[英文] Tutorials | Vault
https://developer.hashicorp.com/vault/tutorials
Centrally store, access and deploy secrets
https://www.youtube.com/watch?v=klyAhaklGNU
Full HashiCorp Vault Tutorial explaining What is HashiCorp Vault, How Vault works, Vault Architecture
ETL+
https://www.ibm.com/think/topics/etl
ETL—meaning extract, transform, load—is a data integration process that combines, cleans and organizes data from multiple sources into a single, consistent data set for storage in a data warehouse, data lake or other target system.
https://www.youtube.com/watch?v=OW5OgsLpDCQ
It explains what ETL is and what it can do for you to improve your data analysis and productivity.
SQL+
https://liaoxuefeng.com/books/sql/introduction/index.html
什么是SQL?简单地说,SQL就是访问和处理关系数据库的计算机标准语言。
https://sqlbolt.com/
Learn SQL with simple, interactive exercises.
https://www.youtube.com/watch?v=p3qvj9hO_Bo
In this video we will cover everything you need to know about SQL in only 60 minutes.
Hadoop+
https://www.runoob.com/w3cnote/hadoop-tutorial.html
Hadoop 为庞大的计算机集群提供可靠的、可伸缩的应用层计算和存储支持,它允许使用简单的编程模型跨计算机群集分布式处理大型数据集,并且支持在单台计算机到几千台计算机之间进行扩展。
[英文] Hadoop Tutorial
https://www.tutorialspoint.com/hadoop/index.htm
Hadoop is an open-source framework that allows to store and process big data in a distributed environment across clusters of computers using simple programming models.
Spark+
[英文] Learning Spark Book
https://pages.databricks.com/rs/094-YMS-629/images/LearningSpark2.0.pdf
This new edition has been updated to reflect Apache Spark’s evolution through Spark 2.x and Spark 3.0, including its expanded ecosystem of built-in and external data sources, machine learning, and streaming technologies with which Spark is tightly integrated.
编程规范+
[英文] Google Style Guides
https://google.github.io/styleguide/
Every major open-source project has its own style guide: a set of conventions (sometimes arbitrary) about how to write code for that project. It is much easier to understand a large codebase when all the code in it is in a consistent style.
相关职位
社招3年以上
1..负责淘宝商品库基础数据相关的实时、离线数据仓库设计、开发、性能优化 以及 相关业务指标的开发;参与淘宝商品基础数据架构、技术体系、数据模型的规划建设,包括数据采集、数据治理、数据质量及稳定性保障体系、数据处理智能化和自动化体系的建设; 2.负责商品、用户等维度数据的挖掘和数据资产沉淀,为业务的交互式即席分析、AB实验效果分析提供统一、可靠、高效的实时+离线的数据服务和丰富的维度下钻支持。 3.能够针对业务场景探索提供大数据解决方案,并实现数据产品化。
更新于 2025-08-20
社招3年以上
1、负责飞猪核算平台的设计与建设; 2、负责飞猪系统、财务系统中涉及结算模块的数据标准化和数据质量建设; 3、根据业务场景的需求设计合理的结算流程、结算规则、结算表单,进行数据挖掘分析; 4、通过数据分析,对业务运行情况进行监控和预测,并提出合理化的改进建议。 5、参与飞猪内部结算平台对接工作,进行系统对接方案设计、系统接口开发及测试验证。
更新于 2025-06-30
社招2年以上诚云科技
1、熟悉人力资源域业务流程,识别关键业务过程,可以独立完成数据仓库中某个模块公共层的模型设计&开发。 2、承接人力资源域业务数据需求,按需完成数据开发及报表配置,交付给业务使用。 3、掌握数据开发使用的工具和规范,做好数据质量、数据安全的保障。
更新于 2025-09-01