字节跳动大数据研发高级工程师 — 实验评估方向
社招全职J5LM1地点:上海状态:招聘
任职要求
1、熟悉Presto、Hive、Spark、Flink、Clickhouse、Hadoop等大数据框架,有大规模数据处理经验; 2、熟悉Python、SQL、J…
登录查看完整任职要求
微信扫码,1秒登录
工作职责
1、面向字节跳动旗下相关产品线,为业务指标建设提供支持和指导; 2、建设PB级数据仓库,参与负责数据仓库设计、建模、研发等; 3、建设ETL数据管道及自动化的ETL数据管道系统; 4、建设离线、在线、实时相结合的指标数据处理专家系统。
包括英文材料
Presto+
[英文] What is Presto?
https://prestodb.io/what-is-presto/
https://www.tutorialspoint.com/apache_presto/index.htm
Hive+
[英文] Hive Tutorial
https://www.tutorialspoint.com/hive/index.htm
Hive is a data warehouse infrastructure tool to process structured data in Hadoop. It resides on top of Hadoop to summarize Big Data, and makes querying and analyzing easy.
https://www.youtube.com/watch?v=D4HqQ8-Ja9Y
Spark+
[英文] Learning Spark Book
https://pages.databricks.com/rs/094-YMS-629/images/LearningSpark2.0.pdf
This new edition has been updated to reflect Apache Spark’s evolution through Spark 2.x and Spark 3.0, including its expanded ecosystem of built-in and external data sources, machine learning, and streaming technologies with which Spark is tightly integrated.
Flink+
https://nightlies.apache.org/flink/flink-docs-release-2.0/docs/learn-flink/overview/
This training presents an introduction to Apache Flink that includes just enough to get you started writing scalable streaming ETL, analytics, and event-driven applications, while leaving out a lot of (ultimately important) details.
https://www.youtube.com/watch?v=WajYe9iA2Uk&list=PLa7VYi0yPIH2GTo3vRtX8w9tgNTTyYSux
Today’s businesses are increasingly software-defined, and their business processes are being automated. Whether it’s orders and shipments, or downloads and clicks, business events can always be streamed. Flink can be used to manipulate, process, and react to these streaming events as they occur.
ClickHouse+
[英文] Advanced Tutorial
https://clickhouse.com/docs/tutorial
Learn how to ingest and query data in ClickHouse using the New York City taxi example dataset.
https://www.youtube.com/watch?v=FtoWGT7kS-c
ClickHouse is an open-source column-oriented DBMS for online analytical processing that allows users to generate analytical reports using SQL queries in real-time.
https://www.youtube.com/watch?v=Rhe-kUyrFUE&list=PL0Z2YDlm0b3gcY5R_MUo4fT5bPqUQ66ep
Hadoop+
https://www.runoob.com/w3cnote/hadoop-tutorial.html
Hadoop 为庞大的计算机集群提供可靠的、可伸缩的应用层计算和存储支持,它允许使用简单的编程模型跨计算机群集分布式处理大型数据集,并且支持在单台计算机到几千台计算机之间进行扩展。
[英文] Hadoop Tutorial
https://www.tutorialspoint.com/hadoop/index.htm
Hadoop is an open-source framework that allows to store and process big data in a distributed environment across clusters of computers using simple programming models.
还有更多 •••
相关职位
社招5年以上技术类-数据
1、研发业界先进的abtest评估系统,负责实验平台数据科学方向的工作; 2、辅助高德各个业务线利用数据科学来进行业务决策,建立各业务的科学指标体系来衡量迭代效果; 3、开发调研类实验场景评估方法,辅助业务决策特殊实验; 4、探索大模型和实验分析、数据分析的结合场景,提升实验取数、实验解读和实验诊断的效率
更新于 2025-09-25北京
社招5年以上技术类-数据
1、研发业界先进的abtest评估系统,负责实验平台数据科学方向的工作; 2、辅助高德各个业务线利用数据科学来进行业务决策,建立各业务的科学指标体系来衡量迭代效果; 3、开发调研类实验场景评估方法,辅助业务决策特殊实验; 4、探索大模型和实验分析、数据分析的结合场景,提升实验取数、实验解读和实验诊断的效率
更新于 2026-04-03北京

社招5年以上技术类-数据
1、研发业界先进的abtest评估系统,负责实验平台数据科学方向的工作; 2、辅助高德各个业务线利用数据科学来进行业务决策,建立各业务的科学指标体系来衡量迭代效果; 3、开发调研类实验场景评估方法,辅助业务决策特殊实验; 4、探索大模型和实验分析、数据分析的结合场景,提升实验取数、实验解读和实验诊断的效率
更新于 2026-04-03北京
社招3年以上新浪&微博
1.负责微博主站搜索下点击模型的算法设计、训练与上线优化,通过用户点击行为提升搜索推荐精准度; 2.负责微博主站搜索引导方向的算法研究与实现,覆盖浏览页、搜索中间页等多场景的用户行为引导与转化模型; 3.主导推荐排序核心算法研发,包括多任务排序与序列建模、用户画像构建、内容语义理解与物料挖掘等模块的工程化落地 持续跟踪并应用 RAG、语义检索与生成式推荐等前沿技术,快速完成验证、迭代与性能调优; 4.对海量用户行为与内容数据进行深度挖掘与特征工程,发现优化机会并持续迭代改进; 5.协调跨团队协作,推动算法方案在大规模线上环境中的稳定部署、监控与持续优化。
更新于 2026-04-01北京