哔哩哔哩资深大数据架构工程师-离线计算方向
社招全职5年以上技术类地点:上海状态:招聘
任职要求
【硬性条件】 ●985 / 211 及以上院校全日制本科及以上学历,计算机相关专业 ●5 年以上大数据相关工作经验 ●至少深度参与过 1 个大型大数据基础设施项目(EB 级存储 / PB 级日处理 / 千节点以上集群 任一) ●Java / Scala / Go / Rust / C++ 中至少两门掌握扎实 ●深度参与过 Spark 生产环境(>= PB / 日)的运维和优化,对 Spark 内核源码有源码级理解 ●对至少一个领域有体系化认知:Catalyst 优化器 / Tungsten / Shuffle / Spark on K8s 【加分项】 ● 对开源生态高度熟悉 ● 具备从 0 到 1 设计大型分布式系统的能力,能独立 owner 某个技术方向 ● 良好的工程品味:代码质量、测试覆盖、可观测性、稳定性 ● 熟练使用 AI 编程工具完成日常开发,对 LLM 能力边界有…
登录查看完整任职要求
微信扫码,1秒登录
工作职责
一、离线计算方向(Spark / 向量化执行引擎) 1、跟踪 Spark / MapReduce / 向量化执行引擎(Gluten / Velox / Photon / DuckDB)的社区前沿,结合 bilibili 业务做选型和落地 2、主导 Spark 引擎在 PB 级日处理、千节点集群下的稳定性、性能优化,包括但不限于: (1)Catalyst 优化器改造 (2)Shuffle 优化(Remote Shuffle Service / Celeborn / Magnet) (3)AQE / Dynamic Allocation / Spec Execution 深度调优 3、推动 Spark 与向量化引擎(Gluten + Velox)的深度集成,降低 CPU 成本、提升查询性能 4、解决批处理任务的资源效率、SQL 兼容性、调度延迟等真实工程问题 5、与湖仓团队配合,做好 Spark on Iceberg / Paimon 的查询和写入优化 二、AI 赋能基础设施研发 1、熟练使用 Claude Code、Cursor、Copilot 等 AI 编程工具,将 AI 深度嵌入日常工作流 2、主导 AI 流程自动化建设,为团队赋能: (1)开发阶段:基于 AI 的代码生成、Code Review、单测生成、性能 profiling 自动化 (2)发布阶段:AI 辅助的变更影响分析、灰度策略推荐、回滚决策 (3)运维阶段:AI 驱动的告警归并、根因分析、故障自愈 (4)答疑阶段:基于内部知识库的 RAG 答疑机器人、SQL 助手、调优建议生成 3、沉淀 AI 工具链最佳实践,推广到全组并向外辐射
包括英文材料
学历+
大数据+
https://www.youtube.com/watch?v=bAyrObl7TYE
https://www.youtube.com/watch?v=H4bf_uuMC-g
With all this talk of Big Data, we got Rebecca Tickle to explain just what makes data into Big Data.
Java+
https://www.youtube.com/watch?v=eIrMbAQSU34
Master Java – a must-have language for software development, Android apps, and more! ☕️ This beginner-friendly course takes you from basics to real coding skills.
Scala+
Go+
https://www.youtube.com/watch?v=8uiZC0l4Ajw
学习Golang的完整教程!从开始到结束不到一个小时,包括如何在Go中构建API的完整演示。没有多余的内容,只有你需要知道的知识。
Rust+
https://www.youtube.com/watch?v=BpPEoZW5IiY
In this comprehensive Rust course for beginners, you will learn about the core concepts of the language and underlying mechanisms in theory.
https://www.youtube.com/watch?v=lzKeecy4OmQ
Full Rust 101 Crash Course for beginners.
https://www.youtube.com/watch?v=rQ_J9WH6CGk
C+++
https://www.learncpp.com/
LearnCpp.com is a free website devoted to teaching you how to program in modern C++.
https://www.youtube.com/watch?v=ZzaPdXTrSb8
Spark+
[英文] Learning Spark Book
https://pages.databricks.com/rs/094-YMS-629/images/LearningSpark2.0.pdf
This new edition has been updated to reflect Apache Spark’s evolution through Spark 2.x and Spark 3.0, including its expanded ecosystem of built-in and external data sources, machine learning, and streaming technologies with which Spark is tightly integrated.
还有更多 •••