百度大数据平台研发工程师(J83276)
社招全职3年以上ACG地点:北京状态:招聘
任职要求
-计算机及相关专业,从事大数据领域相关开发3年及以上 -有数据采集、大数据处理、ETL系统设计、调度系统等相关开发或优化经验 -熟悉HDFS/Hive/Spark/Flink等Hadoop生态技…
登录查看完整任职要求
微信扫码,1秒登录
工作职责
-负责大数据管理开发平台的研究、设计和开发,包括数据采集、存储、开发、处理、作业调度等工作 -负责大数据管理开发平台的设计和优化,提高产品的实用性和用户体验 -持续优化平台的稳定性和性能,维护系统的稳定运行 -深入理解业务系统,理解项目客户需求,设计和实现符合用户需求的大数据平台系统,确保项目顺利验收
包括英文材料
大数据+
https://www.youtube.com/watch?v=bAyrObl7TYE
https://www.youtube.com/watch?v=H4bf_uuMC-g
With all this talk of Big Data, we got Rebecca Tickle to explain just what makes data into Big Data.
ETL+
https://www.ibm.com/think/topics/etl
ETL—meaning extract, transform, load—is a data integration process that combines, cleans and organizes data from multiple sources into a single, consistent data set for storage in a data warehouse, data lake or other target system.
https://www.youtube.com/watch?v=OW5OgsLpDCQ
It explains what ETL is and what it can do for you to improve your data analysis and productivity.
系统设计+
https://roadmap.sh/system-design
Everything you need to know about designing large scale systems.
https://www.youtube.com/watch?v=F2FmTdLtb_4
This complete system design tutorial covers scalability, reliability, data handling, and high-level architecture with clear explanations, real-world examples, and practical strategies.
HDFS+
https://hadoop.apache.org/docs/r1.2.1/hdfs_design.html
The Hadoop Distributed File System (HDFS) is a distributed file system designed to run on commodity hardware.
https://www.ibm.com/cn-zh/think/topics/hdfs
Hadoop 分布式文件系统 (HDFS) 是一种管理大型数据集的文件系统,可在商用硬件上运行。
Hive+
[英文] Hive Tutorial
https://www.tutorialspoint.com/hive/index.htm
Hive is a data warehouse infrastructure tool to process structured data in Hadoop. It resides on top of Hadoop to summarize Big Data, and makes querying and analyzing easy.
https://www.youtube.com/watch?v=D4HqQ8-Ja9Y
还有更多 •••
相关职位
社招1年以上ACG
-研发大规模分布式计算系统,包括高吞吐的批量计算、高时效的流式计算、高效能的OLAP等 -为全百度提供高性能、高可用、低成本的大数据计算服务 -探索新架构、新技术、新硬件,设计面向大模型的数据处理引擎和服务 -深入理解业务系统,理解项目客户需求,设计和实现符合用户需求的大数据平台系统,确保项目顺利验收
更新于 2025-06-09北京
社招A118197
团队介绍:BABI平台是通过内部商业化/市场化的方式,以商品化为主要核心手段,围绕IT基础设施和人力成本提供一站式的平台支持,服务公司看清楚各业务部门从预算到成本到收入的经营过程,结合数据化、智能化的方式帮助业务线做好成本经营。 1、参与字节跳动技术团队及火山引擎业务等经营分析系统的大数据研发工作,包括但不限于BI可视化、OLAP分析、数据流调度、数据智能化服务等核心模块; 2、参与FinOps数据治理工作,持续提升数据易用性及数据质量,为经营分析提效赋能; 3、深入了解业务和系统痛点,给出优质的解决方案,并持续提升系统稳定性、可靠性、可扩展性,解决技术难题。
更新于 2024-12-03北京