字节跳动大数据平台高级工程师
社招全职EQV1地点:上海状态:招聘
任职要求
1、熟悉多项大数据处理/分析相关的工具/框架,e.g. Hadoop, Mapreduce, Hive, Storm, Spark, kylin,scribe, kafka, hbase, canal,sqoop etc; 2、…
登录查看完整任职要求
微信扫码,1秒登录
工作职责
1、负责通用数据平台和分析型产品; 2、面向PB级超大规模数据问题,每天处理千亿增量的用户行为数据; 3、为大数据的全生命周期提供服务,覆盖数据产生,传输,建模,统计分析,实验评估,可视化的全流程; 4、构建设计良好的数据流、数据仓库、调度系统、查询引擎,数据服务、分析系统、流程规范,数据工具/产品,降低数据的使用门槛,保证系统稳定高效运行,以实现数据的最大价值。
包括英文材料
Hadoop+
https://www.runoob.com/w3cnote/hadoop-tutorial.html
Hadoop 为庞大的计算机集群提供可靠的、可伸缩的应用层计算和存储支持,它允许使用简单的编程模型跨计算机群集分布式处理大型数据集,并且支持在单台计算机到几千台计算机之间进行扩展。
[英文] Hadoop Tutorial
https://www.tutorialspoint.com/hadoop/index.htm
Hadoop is an open-source framework that allows to store and process big data in a distributed environment across clusters of computers using simple programming models.
Hive+
[英文] Hive Tutorial
https://www.tutorialspoint.com/hive/index.htm
Hive is a data warehouse infrastructure tool to process structured data in Hadoop. It resides on top of Hadoop to summarize Big Data, and makes querying and analyzing easy.
https://www.youtube.com/watch?v=D4HqQ8-Ja9Y
Spark+
[英文] Learning Spark Book
https://pages.databricks.com/rs/094-YMS-629/images/LearningSpark2.0.pdf
This new edition has been updated to reflect Apache Spark’s evolution through Spark 2.x and Spark 3.0, including its expanded ecosystem of built-in and external data sources, machine learning, and streaming technologies with which Spark is tightly integrated.
还有更多 •••
相关职位
社招RQ221
1、面向字节跳动旗下相关产品线,负责数据流和相关数据服务; 2、面向超大规模数据问题,每天处理千亿增量的用户行为数据; 3、负责流式数据的实时传递,清洗,转换,计算,并对外提供查询服务; 4、负责相同数据集的批处理功能。
更新于 2018-07-19北京
社招4年以上软硬件服务-Sa
1、参与餐饮SaaS数据平台的整体架构建设工作,包括但不限于在线多维分析引擎、数据存储引擎、实时计算引擎、平台数据治理、数据服务、数据质量、数据产品等能力设计与研发等; 2、研究美团餐饮SaaS业务的数据特点,探索带来成本大幅优化的计算、存储方案,构建下一代智能报表系统的底层基础能力与产品通用解决方案; 3、理解数据湖、大数据分析引擎或数据库引擎工作原理,熟悉Parquet、ORC、Arrow等列存储技术方案,理解Doris、ClickHouse、Hive、Presto等至少一种分析引擎的工作原理,熟悉实时计算系统Flink、Storm、Spark至少一种计算框架的工作原理; 4、精通OLAP SQL优化与业务逻辑编排,对BI分析引擎有理解者优先
更新于 2025-04-17北京
社招TEG技术
1.参与腾讯全链路大数据开发治理平台WeData前端开发; 2.参与腾讯大数据平台业务平台前端开发与系统维护; 3.参与构建全链路大数据开发治理平台WeData前端统一脚手架,组件库,工具库,业务SDK开发,网关等基础设施,提升开发体验与开发效率; 4.通过前端技术与性能优化,提升大数据全链路开发治理平台WeData的用户体验。
更新于 2025-05-14长沙