字节跳动资深数据开发工程师
社招全职2年以上A248307地点:北京状态:招聘
任职要求
1、本科及以上学历,2年以上爬虫抓取采集相关工作经验; 2、熟悉主流爬取技术及爬虫框架工具,如Selenium/Puppet…
登录查看完整任职要求
微信扫码,1秒登录
工作职责
1、遵循Robots协议,参与爬虫系统的建设与优化,满足各类业务数据需求; 2、负责分布式爬虫系统的建设,优化数据调度、抓取、解析、存储全栈流程; 3、帮助团队攻克各种爬虫技术难关,提升海量数据系统的抓取效果与性能。
包括英文材料
学历+
Selenium+
https://www.youtube.com/watch?v=j7VZsCCnptM
Learn Selenium by building a web scraping bot in Python.
https://www.youtube.com/watch?v=mOAXEQevCAE&list=PLhW3qG5bs-L_s9HdC5zNshE5Ti8jABwlU
Puppeteer+
https://oxylabs.io/blog/puppeteer-tutorial
There are a few methods to accessing and parsing web pages, but in this tutorial we will be covering how to do it with Google Puppeteer.
[英文] Getting started
https://pptr.dev/guides/getting-started
You launch/connect a browser, create some pages, and then manipulate them with Puppeteer's API.
https://www.youtube.com/watch?v=nIJV-LbV_vM
This tutorial walks you through every thing you need to know about Puppeteer and headless browsers, so you can automate website testing, web scraping, fetching and downloading content, and more.
https://www.youtube.com/watch?v=Sag-Hz9jJNg
Learn puppeteer in less than one hour.
还有更多 •••
相关职位
社招5-10年网易职能
1、负责网易集团财经数据中台的数仓规划与设计 2、完成相关原始数据采集、清洗、整理、去重和治理,保证数据及时性、完整性、一致性和准确性。 3、参与业务需求调研,根据业务需求设计数据仓库维度模型,并完成数据模型开发,沉淀数据指标。 4、持续改进优化ETL、分析处理等问题,对结构化的数据做数据分析; 5、对项目开发进度、代码质量进行管控、完成技术文档的沉淀。
更新于 2025-10-31杭州
社招3年以上技术
1.参与ERP数仓的开发、维护、优化及相关技术支持工作,以及财务&法务&采购等数据体系建设; 2.负责数据仓库ETL流程的优化及解决相关技术问题; 3.参与数据产品设计和评审,保障数据平台架构稳定; 4.为日常项目中需求提供数据支持,并且在一定程度上给予评估和建议。
更新于 2025-06-17北京
社招5年以上火车票业务项目/
1、参与数据仓库的设计与搭建,重点支持算法团队对特征数据的使用; 2、参与公司数据应用(产品)的开发,推动业务部门的数据化运营; 3、探索包括大模型在内的新技术在数据应用和数仓领域的应用;
更新于 2024-08-23上海