字节跳动数据仓库资深开发工程师
社招全职3年以上L5000地点:北京状态:招聘
任职要求
1、计算机相关专业本科及以上学历; 2、3年及以上数据仓库研发经验,具有从0到1搭建企业级数仓的经验; 3、扎实的数据仓库理论基础,熟悉维度数据仓库模型设计,应用层建设有比较丰富的经验,具有Data Vault建模实际经验优先; 4、具备海量数据加工处理(ETL)及运维相关经验,灵活运用各类SQL实现数据ETL加工处理; 5、熟悉Hadoop生态相关技术并有相关实践经验,具备hsql、spark-sql调优经验; 6、良好的逻辑思维和沟通能力,对代码和设计质量有严格要求,重视Code Review,知道良好的编程习惯的标准; 7、具有互联网金融行业从业经验、有信贷、支付、保险业务经验者优先。
工作职责
1、主导财经业务相关主题的分布式数据仓库规划、设计、落地及运营; 2、主导财经数据资产公共层建设,从工具和效果上实现敏捷智能的目标; 3、深入了解业务,主动优化数据仓库实现数据治理与迭代闭环,不断提升数据质效。
包括英文材料
学历+
数据仓库+
https://www.youtube.com/watch?v=9GVqKuTVANE
From Zero to Data Warehouse Hero: A Full SQL Project Walkthrough and Real Industry Experience!
https://www.youtube.com/watch?v=k4tK2ttdSDg
Vault+
[英文] Tutorials | Vault
https://developer.hashicorp.com/vault/tutorials
Centrally store, access and deploy secrets
https://www.youtube.com/watch?v=klyAhaklGNU
Full HashiCorp Vault Tutorial explaining What is HashiCorp Vault, How Vault works, Vault Architecture
ETL+
https://www.ibm.com/think/topics/etl
ETL—meaning extract, transform, load—is a data integration process that combines, cleans and organizes data from multiple sources into a single, consistent data set for storage in a data warehouse, data lake or other target system.
https://www.youtube.com/watch?v=OW5OgsLpDCQ
It explains what ETL is and what it can do for you to improve your data analysis and productivity.
SQL+
https://liaoxuefeng.com/books/sql/introduction/index.html
什么是SQL?简单地说,SQL就是访问和处理关系数据库的计算机标准语言。
https://sqlbolt.com/
Learn SQL with simple, interactive exercises.
https://www.youtube.com/watch?v=p3qvj9hO_Bo
In this video we will cover everything you need to know about SQL in only 60 minutes.
Hadoop+
https://www.runoob.com/w3cnote/hadoop-tutorial.html
Hadoop 为庞大的计算机集群提供可靠的、可伸缩的应用层计算和存储支持,它允许使用简单的编程模型跨计算机群集分布式处理大型数据集,并且支持在单台计算机到几千台计算机之间进行扩展。
[英文] Hadoop Tutorial
https://www.tutorialspoint.com/hadoop/index.htm
Hadoop is an open-source framework that allows to store and process big data in a distributed environment across clusters of computers using simple programming models.
Spark+
[英文] Learning Spark Book
https://pages.databricks.com/rs/094-YMS-629/images/LearningSpark2.0.pdf
This new edition has been updated to reflect Apache Spark’s evolution through Spark 2.x and Spark 3.0, including its expanded ecosystem of built-in and external data sources, machine learning, and streaming technologies with which Spark is tightly integrated.
编程规范+
[英文] Google Style Guides
https://google.github.io/styleguide/
Every major open-source project has its own style guide: a set of conventions (sometimes arbitrary) about how to write code for that project. It is much easier to understand a large codebase when all the code in it is in a consistent style.
相关职位

社招3年以上技术
1)负责企业级数据仓库建设和管理,建设PB级数据资产管理平台,包括但不限于数据模型、元数据管理等; 2)参与平台数据治理相关工作,负责数据质量、数据一致性及稳定性保障等建设; 3)参与数仓底层的架构设计和性能优化,驱动数据产品与应用的研发,发掘数据价值,以数据驱动业务不断发展;
更新于 2023-12-28
社招3年以上信息技术类
1、分析业务需求,建设数据库仓库,对业务部门提供数据支持; 2、参与数据源分析,完成大数据平台与各业务系统的数据对接; 3、完成基于大数据技术平台基础上的数据仓库设计和ETL开发; 4、调研相关技术,优化大数据开发流程,规划大数据平台应用。
更新于 2025-04-16
社招2年以上技术类
1. 负责公司内部商业化数据的开发和维护,为产品和营销团队提供数据支持和分析服务; 2. 设计和开发商业化数据仓库和数据集市,实现数据的采集、清洗、存储和分析; 3. 负责数据架构的设计和维护,确保数据准确性、完整性和安全性; 4. 参与业务需求分析和数据建模工作,编写SQL语句完成数据提取、转换和加载(ETL); 5. 能够独立完成数据问题的排查和处理,解决数据质量和性能问题; 6. 具有良好的沟通能力和团队协作能力,与不同部门的业务人员和技术人员合作,推进数据项目的进展。
更新于 2025-04-07