字节跳动大数据研发工程师-数据平台
社招全职J5SRP地点:上海状态:招聘
任职要求
1、熟悉数据仓库实施方法论、深入了解数据仓库体系,并支撑过实际业务场景; 2、熟悉hadoop,hive,spark,flink,clickhouse等大数据框架,有大规模数据处理经验; 3、…
登录查看完整任职要求
微信扫码,1秒登录
工作职责
1、负责字节跳动相关业务的离线与实时数据仓库构建; 2、负责数据模型的设计,ETL实施,ETL性能优化,ETL数据监控以及相关技术问题的解决; 3、深入业务,理解并合理抽象业务需求,发挥数据价值,与业务团队紧密合作; 4、参与大数据应用规划,为数据产品、挖掘团队提供应用指导; 5、 参与数据治理工作,提升数据易用性及数据质量。
包括英文材料
数据仓库+
https://www.youtube.com/watch?v=9GVqKuTVANE
From Zero to Data Warehouse Hero: A Full SQL Project Walkthrough and Real Industry Experience!
https://www.youtube.com/watch?v=k4tK2ttdSDg
Hadoop+
https://www.runoob.com/w3cnote/hadoop-tutorial.html
Hadoop 为庞大的计算机集群提供可靠的、可伸缩的应用层计算和存储支持,它允许使用简单的编程模型跨计算机群集分布式处理大型数据集,并且支持在单台计算机到几千台计算机之间进行扩展。
[英文] Hadoop Tutorial
https://www.tutorialspoint.com/hadoop/index.htm
Hadoop is an open-source framework that allows to store and process big data in a distributed environment across clusters of computers using simple programming models.
Hive+
[英文] Hive Tutorial
https://www.tutorialspoint.com/hive/index.htm
Hive is a data warehouse infrastructure tool to process structured data in Hadoop. It resides on top of Hadoop to summarize Big Data, and makes querying and analyzing easy.
https://www.youtube.com/watch?v=D4HqQ8-Ja9Y
Spark+
[英文] Learning Spark Book
https://pages.databricks.com/rs/094-YMS-629/images/LearningSpark2.0.pdf
This new edition has been updated to reflect Apache Spark’s evolution through Spark 2.x and Spark 3.0, including its expanded ecosystem of built-in and external data sources, machine learning, and streaming technologies with which Spark is tightly integrated.
Flink+
https://nightlies.apache.org/flink/flink-docs-release-2.0/docs/learn-flink/overview/
This training presents an introduction to Apache Flink that includes just enough to get you started writing scalable streaming ETL, analytics, and event-driven applications, while leaving out a lot of (ultimately important) details.
https://www.youtube.com/watch?v=WajYe9iA2Uk&list=PLa7VYi0yPIH2GTo3vRtX8w9tgNTTyYSux
Today’s businesses are increasingly software-defined, and their business processes are being automated. Whether it’s orders and shipments, or downloads and clicks, business events can always be streamed. Flink can be used to manipulate, process, and react to these streaming events as they occur.
还有更多 •••
相关职位

社招3年以上研发类
岗位职责: ● 负责大数据平台的设计、开发、技术攻关等工作,保障平台高可用 ● 参与PB级别的数据采集、数据传输、数据落地的开发工作,提升数据质量与时效性 ● 协助解决基于数据平台研发的技术问题和业务对接,推进需求落地
更新于 2025-12-17厦门
社招1年以上D6225
1、整合快手全域海量异构数据,建设公司级核心资产,包括但不限于统一ID服务、时空资产和用户画像; 2、参与核心资产研发体系建设,比如架构设计、数仓建设和数据治理; 3、技术攻坚,解决海量数据下的复杂技术问题,比如关系挖掘、图挖掘中的工程问题; 4、深入业务场景,了解业务痛点,为各业务线提供数据驱动的解决方案。
更新于 2024-08-28北京
社招2年以上QUR1
1、负责字节商业化数据仓库&集市的建设与维护,包括但不限于数据建模、数据开发、数据质量等 2、负责字节商业化业务数据BP,包括需求对接,抽象需求沉淀数据建模,结合产品矩阵灵活的把控技术方案,高质量交付需求 3、参与商业化数据治理工作,提升数据稳定性、易用性及数据质量 4、参与商业化大数据平台规划、为商业数据平台整体提供内容建设侧的应建议指导
更新于 2019-05-06北京