小红书Spark数据引擎研发专家
社招全职3-5年数据引擎地点:上海 | 北京 | 杭州状态:招聘
任职要求
1、至少熟悉一款主流大数据框架及源码,比如Spark、StarRocks、ClickHouse、Impala、Doris、MySQL等; 2、熟悉Spark生态系统,如RSS,Kuybbi, HMS等,有实际的Spark 代码编写、调优部署和问题排查经验。 3、熟悉主流的OLAP引擎的技术优势,如向量化执行、SIMD编程…
登录查看完整任职要求
微信扫码,1秒登录
工作职责
1、参与小红书Spark离线引擎的研发工作,支撑小红书云原生大规模离线数据处理场景,包括数据仓库、机器学习等场景,提升离线处理引擎的性能和稳定性 2、参与小红书Spark Native Engine 和 Serverless Spark 架构的研发工作,提升任务时效性,同时利用离在线混部降低资源成本 3、参与统一元数据工作,为小红书算法AI团队管理非结构化数据,提供统一访问方式,简化算法数据开发链路,并进行数据治理
包括英文材料
大数据+
https://www.youtube.com/watch?v=bAyrObl7TYE
https://www.youtube.com/watch?v=H4bf_uuMC-g
With all this talk of Big Data, we got Rebecca Tickle to explain just what makes data into Big Data.
Spark+
[英文] Learning Spark Book
https://pages.databricks.com/rs/094-YMS-629/images/LearningSpark2.0.pdf
This new edition has been updated to reflect Apache Spark’s evolution through Spark 2.x and Spark 3.0, including its expanded ecosystem of built-in and external data sources, machine learning, and streaming technologies with which Spark is tightly integrated.
StarRocks+
https://docs.starrocks.io/docs/quick_start/
These Quick Start guides will help you get going with a small StarRocks environment.
https://itnext.io/introduction-to-starrocks-a-new-modern-analytical-database-1db2177d26e1
Recently, I had the opportunity to explore StarRocks which is the new kid in the block when talking about massive scale databases which are able to handle petabytes of data.
ClickHouse+
[英文] Advanced Tutorial
https://clickhouse.com/docs/tutorial
Learn how to ingest and query data in ClickHouse using the New York City taxi example dataset.
https://www.youtube.com/watch?v=FtoWGT7kS-c
ClickHouse is an open-source column-oriented DBMS for online analytical processing that allows users to generate analytical reports using SQL queries in real-time.
https://www.youtube.com/watch?v=Rhe-kUyrFUE&list=PL0Z2YDlm0b3gcY5R_MUo4fT5bPqUQ66ep
Impala+
[英文] Impala Tutorials
https://impala.apache.org/docs/build/html/topics/impala_tutorial.html
This section includes tutorial scenarios that demonstrate how to begin using Impala.
Doris+
https://doris.apache.org/docs/gettingStarted/what-is-apache-doris
还有更多 •••
相关职位

社招2年以上技术类
1、【引擎研发】负责Spark、Presto、Hive 为基础的大数据查询引擎内核研发,跟进社区版本,改进性能,提升稳定性,研发新功能,修复内核BUG; 2、【业务支撑】负责排查、定位、解决生产集群问题,与运维同学一起维护生产集群的稳定性,协助业务方一起使用好大数据平台; 3、【平台规划】参与规划公司计算平台的技术演技,提升计算平台湖仓能力,基于云IAAS或者自建IAAS,打造高稳定性、高性能、低成本的计算平台。
更新于 2023-12-26上海|杭州
社招D7195
1、参与快手EB级大数据平台计算引擎相关系统的研发与优化工作,解决实际业务需求与性能问题; 2、接受大数据平台系统设计与实现复杂度的挑战,分析和发现系统的优化点,负责推动系统的合理性、可靠性、可用性的提升; 3、和开源社区保持交流,从社区引入对公司业务场景有帮助的特性与系统,或将内部研发的功能贡献到社区。
更新于 2025-03-07北京
社招D7195
1、参与快手EB级大数据平台计算引擎相关系统的研发与优化工作,解决实际业务需求与性能问题; 2、接受大数据平台系统设计与实现复杂度的挑战,分析和发现系统的优化点,负责推动系统的合理性、可靠性、可用性的提升; 3、和开源社区保持交流,从社区引入对公司业务场景有帮助的特性与系统,或将内部研发的功能贡献到社区。
更新于 2025-03-07杭州