小红书计算引擎专家(实时方向)
社招全职3-5年数据引擎地点:北京 | 上海 | 杭州状态:招聘
任职要求
1. 计算机或相关专业本科及以上学历; 2. 熟悉常见的分布式处理引擎(Flink/Spark/StarRocks),有海量数据业务场景下的系统架构设计和实践经验; 3. 具备良好的沟通和团队协作能力,做事主动积极负责任,有技术热情和激情面对挑战。
工作职责
1. 打造业内领先的实时计算框架,支持小红书各业务场景的实时数据处理和分析需求。 2.构建混合云上的高可用架构,支持存算分离架构,提供分钟级别的引擎故障逃生能力。 3.基于实时湖仓架构,完善相关的生态和产品,提供更低成本、更高效率的数据开发范式;提供自动化、智能化的任务诊断调优能力,降低业务运维的成本。 4. 和开源社区保持沟通合作,提升团队和个人在业界的影响力。
包括英文材料
学历+
Flink+
https://nightlies.apache.org/flink/flink-docs-release-2.0/docs/learn-flink/overview/
This training presents an introduction to Apache Flink that includes just enough to get you started writing scalable streaming ETL, analytics, and event-driven applications, while leaving out a lot of (ultimately important) details.
https://www.youtube.com/watch?v=WajYe9iA2Uk&list=PLa7VYi0yPIH2GTo3vRtX8w9tgNTTyYSux
Today’s businesses are increasingly software-defined, and their business processes are being automated. Whether it’s orders and shipments, or downloads and clicks, business events can always be streamed. Flink can be used to manipulate, process, and react to these streaming events as they occur.
Spark+
[英文] Learning Spark Book
https://pages.databricks.com/rs/094-YMS-629/images/LearningSpark2.0.pdf
This new edition has been updated to reflect Apache Spark’s evolution through Spark 2.x and Spark 3.0, including its expanded ecosystem of built-in and external data sources, machine learning, and streaming technologies with which Spark is tightly integrated.
StarRocks+
https://docs.starrocks.io/docs/quick_start/
These Quick Start guides will help you get going with a small StarRocks environment.
https://itnext.io/introduction-to-starrocks-a-new-modern-analytical-database-1db2177d26e1
Recently, I had the opportunity to explore StarRocks which is the new kid in the block when talking about massive scale databases which are able to handle petabytes of data.
系统设计+
https://roadmap.sh/system-design
Everything you need to know about designing large scale systems.
https://www.youtube.com/watch?v=F2FmTdLtb_4
This complete system design tutorial covers scalability, reliability, data handling, and high-level architecture with clear explanations, real-world examples, and practical strategies.
相关职位
社招5年以上数据仓库
负责实时数据处理和分析系统的开发和维护,确保数据流的高效和稳定。 设计和实现高吞吐、低延迟的实时数据处理流程。 与业务团队合作,开发实时数据链路以及建设实时数仓。 参与实时数据平台的架构设计和性能优化。
社招3年以上产品类-商业型
1. 产品规划与定义: 基于Flink开源技术演进趋势及用户需求,主导大数据引擎类产品的路标规划与功能设计,并对产品用户使用体验与市场价值负责。 2. 产品全生命周期管理: 负责Flink产品的全生命周期管理(从概念到退市),以用户价值为核心,交付安全、稳定、易用且具备成本效益的产品。有效协调并驱动研发、测试、运营、客服等多职能团队,确保达成产品业务目标。 3. 产品布道与用户洞察: 主导产品布道工作,包括内外部技术培训、市场活动推广及数据分析解读。深入关注用户反馈与行为数据,驱动产品用户体验的持续优化,对用户转化率、留存率、客户价值及满意度负责。 4. 市场与技术研究: 围绕实时计算领域(基于Flink),进行开源大数据技术深度分析、开源大数据市场动态研究及竞争对手调研,为产品战略决策提供洞察。
更新于 2025-07-02
社招A162738
1、负责设计、研发字节跳动统一的实时计算平台,包括不限于实时任务的开发、发布、调度、运维等平台能力的建设,支持包括抖音、今日头条、国际化短视频在内的海内外业务; 2、与底层引擎、业务数据开发团队密切协作,深入理解业务场景,设计合理方案,确保实时数据开发的高可靠、高性能、高效率; 3、关注实时计算前沿进展,规划平台中长期演进,打造行业领先的实时计算平台产品。
更新于 2024-12-24