字节跳动大数据研发工程师
社招全职3年以上J6NQP地点:北京状态:招聘
任职要求
1、计算机等相关专业,硕士或以上学历,3年以上大数据、人工智能相关经验; 2、熟悉Hive\Hadoop\Spark\Flink\ClickHouse\Druid等大数据开发技术; 3、有良好的业务和产品sense,执行力、推动力强优先; 4、有丰富的行业经验,丰富的专业知识,独特的行业见解,有战略视野和规划能力优先; 5、优秀的理解沟通能力,崇尚数据说话,深信数据在驱动业务、支撑决策上的价值优先。
工作职责
1、负责抖音/抖音火山版等多个业务线的策略算法建设与优化工作; 2、通过海量数据,分析与挖掘各种潜在关联,不断优化策略效果,保障用户体验; 3、负责实时及离线特征抽取、融合,为数据挖掘及策略平台提供特征服务; 4、负责大数据能力在产品功能上的落地,推动产品数据化和智能化。
包括英文材料
学历+
大数据+
https://www.youtube.com/watch?v=bAyrObl7TYE
https://www.youtube.com/watch?v=H4bf_uuMC-g
With all this talk of Big Data, we got Rebecca Tickle to explain just what makes data into Big Data.
Hive+
[英文] Hive Tutorial
https://www.tutorialspoint.com/hive/index.htm
Hive is a data warehouse infrastructure tool to process structured data in Hadoop. It resides on top of Hadoop to summarize Big Data, and makes querying and analyzing easy.
https://www.youtube.com/watch?v=D4HqQ8-Ja9Y
Hadoop+
https://www.runoob.com/w3cnote/hadoop-tutorial.html
Hadoop 为庞大的计算机集群提供可靠的、可伸缩的应用层计算和存储支持,它允许使用简单的编程模型跨计算机群集分布式处理大型数据集,并且支持在单台计算机到几千台计算机之间进行扩展。
[英文] Hadoop Tutorial
https://www.tutorialspoint.com/hadoop/index.htm
Hadoop is an open-source framework that allows to store and process big data in a distributed environment across clusters of computers using simple programming models.
Spark+
[英文] Learning Spark Book
https://pages.databricks.com/rs/094-YMS-629/images/LearningSpark2.0.pdf
This new edition has been updated to reflect Apache Spark’s evolution through Spark 2.x and Spark 3.0, including its expanded ecosystem of built-in and external data sources, machine learning, and streaming technologies with which Spark is tightly integrated.
Flink+
https://nightlies.apache.org/flink/flink-docs-release-2.0/docs/learn-flink/overview/
This training presents an introduction to Apache Flink that includes just enough to get you started writing scalable streaming ETL, analytics, and event-driven applications, while leaving out a lot of (ultimately important) details.
https://www.youtube.com/watch?v=WajYe9iA2Uk&list=PLa7VYi0yPIH2GTo3vRtX8w9tgNTTyYSux
Today’s businesses are increasingly software-defined, and their business processes are being automated. Whether it’s orders and shipments, or downloads and clicks, business events can always be streamed. Flink can be used to manipulate, process, and react to these streaming events as they occur.
ClickHouse+
[英文] Advanced Tutorial
https://clickhouse.com/docs/tutorial
Learn how to ingest and query data in ClickHouse using the New York City taxi example dataset.
https://www.youtube.com/watch?v=FtoWGT7kS-c
ClickHouse is an open-source column-oriented DBMS for online analytical processing that allows users to generate analytical reports using SQL queries in real-time.
https://www.youtube.com/watch?v=Rhe-kUyrFUE&list=PL0Z2YDlm0b3gcY5R_MUo4fT5bPqUQ66ep
相关职位
社招A140437
1、广告各类在线业务的离线数据加工与在线数据服务开发与维护; 2、数据服务接口及产品需求研发迭代,代码review、bug修复及日常服务运维; 3、针对海量数据处理和查询需求,设计适应业务变化的合理的多维数据分析系统架构,满足多样性的需求; 4、海量日志清洗加工,并抽象出可以多业务复用的数据模型。
更新于 2023-10-20
社招A177865
部门介绍:成为字节跳动广告收入增长的驱动力之一。成为以数据为中心的技术的先驱,并构建可衡量的高质量数据、服务和产品。非中国数据负责广告日志、广告数据仓库、数据中心仪表板中心、广告商数据服务等。 1、广告各类在线业务的离线数据加工与在线数据服务开发与维护; 2、数据服务接口及产品需求研发迭代,代码review、bug修复及日常服务运维; 3、针对海量数据处理和查询需求,设计适应业务变化的合理的多维数据分析系统架构,满足多样性的需求; 4、海量日志清洗加工,并抽象出可以多业务复用的数据模型。
更新于 2024-01-22
社招3年以上A136495
UBA(User Behavior Analysis) 是一个内部分析平台,在全球有超过 10000 名员工大量使用。这是一款基于用户行为数据的数据中台产品,为字节跳动/抖音内部的国内外各种业务提供数据分析服务,包括抖音、今日头条、西瓜、抖音等。它具有强大的功能,支持 EB 级的海量数据、万亿级的事件量和毫秒级的响应时间,为用户提供简单、灵活和高性能的数据分析服务。 1、参与多区域机房部署和维护:在多个地点部署和维护大数据平台的经验,熟悉跨地域协作挑战; 2、参与研发团队迭代开发,开发和指导软件测试和验证程序; 3、负责大数据平台的架构设计、性能调优和故障排除; 4、分析和解决复杂的系统性能和稳定性问题,确保系统的可靠性和稳定性; 5、编写技术文档,记录系统配置和操作程序。
更新于 2024-04-26