知乎爬虫工程师
社招全职2年以上地点:北京状态:招聘
任职要求
1、精通Python及Scrapy框架,熟悉常见反爬应对策略 2、深入理解HTTP协议和前端渲染机制,能独立分析动态网页结构 3、掌握主流数据库(MySOL/MongoDB/Redis/HBas e等)和消息队列技术有分布式爬虫开发经验,熟悉任务调度与性能优化经验要求 4、2年以上爬虫开发经验,至少主导完成1个中大型爬虫项目落地有成功解决复杂反爬问题的实战案例(需面试演示)加分项
工作职责
1、索引库爬取与建设:负责搜索大环的设计和实现,优化搜索引擎爬虫算法,提高数据采集效率;分析和处理网页数据,提高网页解析的准度和效率。 2、责大规模网页数据的抓取、清洗及结构化存储,保障数据质量和时效性,突破各类反爬限制(如IP封禁、验证码、动态加密等),设计高效稳定的数据采集方案 3、设计并优化分布式爬虫架构,提升系统并发能力和容错性维护数据采集链路,协同数据分析团队完成数据交付与应用
包括英文材料
Python+
https://liaoxuefeng.com/books/python/introduction/index.html
中文,免费,零起点,完整示例,基于最新的Python 3版本。
https://www.learnpython.org/
a free interactive Python tutorial for people who want to learn Python, fast.
https://www.youtube.com/watch?v=K5KVEU3aaeQ
Master Python from scratch 🚀 No fluff—just clear, practical coding skills to kickstart your journey!
https://www.youtube.com/watch?v=rfscVS0vtbw
This course will give you a full introduction into all of the core concepts in python.
HTTP+
https://developer.mozilla.org/zh-CN/docs/Web/HTTP
超文本传输协议(HTTP)是一个用于传输超媒体文档(例如 HTML)的应用层协议。它是为 Web 浏览器与 Web 服务器之间的通信而设计的,但也可以用于其他目的。
MySQL+
https://juejin.cn/post/7190306988939542585
这是一篇 MySQL 通关一篇过硬核经验学习路线,包括数据库相关知识,SQL语句的使用,数据库约束,设计等。
[英文] MySQL Tutorial
https://www.mysqltutorial.org/
your go-to resource for mastering MySQL in a fast, easy, and enjoyable way.
https://www.youtube.com/watch?v=5OdVJbNCSso
MySQL SQL tutorial for beginners
https://www.youtube.com/watch?v=7S_tz1z_5bA
This beginner-friendly course teaches you SQL from scratch.
MongoDB+
https://learnxinyminutes.com/mongodb/
MongoDB is a NoSQL document database for high volume data storage.
https://studio3t.com/academy/#courses
The fastest way to learn MongoDB
https://www.youtube.com/watch?v=c2M-rlkkT5o
This video will give you and introduction to MongoDB in 1 Hour. Afterwards I recommend exploring aggregation, replication, and sharding.
https://www.youtube.com/watch?v=ExcRbA7fy_A&list=PL4cUxeGkcC9h77dJ-QJlwGlZlTd4ecZOA
You'll learn how to use MongoDB (a NoSQL database) from scratch. You'll also learn how to integrate it into a simple Node.js API.
Redis+
[英文] Developer Hub
https://redis.io/dev/
Get all the tutorials, learning paths, and more you need to start building—fast.
https://www.runoob.com/redis/redis-tutorial.html
REmote DIctionary Server(Redis) 是一个由 Salvatore Sanfilippo 写的 key-value 存储系统,是跨平台的非关系型数据库。
https://www.youtube.com/watch?v=jgpVdJB2sKQ
In this video I will be covering Redis in depth from how to install it, what commands you can use, all the way to how to use it in a real world project.
消息队列+
https://www.youtube.com/watch?v=xErwDaOc-Gs
相关职位

社招1年以上
1. 负责数据挖掘核心技术研究和开发; 2. 对大数据进行分析,挖掘各类用户特征,使用统计建模方法分析用户; 3. 基于海量用户行为数据,构建用户画像及知识图谱,挖掘用户行为模式。
更新于 2025-08-11
社招2年以上
1. 负责根据业务需求/规划开展爬虫工作,同时对现有爬虫进行维护和完善; 2. 持续进行爬虫核心技术研究和策略优化,攻克疑难技术问题,设计防屏蔽规则,提升数据抓取的效率和质量; 3. 建立爬虫监测体系,及时监控及解决运行过程中出现的问题,确保数据的稳定性和准确性; 4. 参与公司内部相关平台的架构设计与开发,并结合业务场景及NLP等技术,实现产品化。
更新于 2024-06-12
社招3年以上数据引擎
爬虫架构师 1.负责大规模广域爬虫引擎的部署、开发、维护; 2.负责爬虫系统的设计与优化; 3.熟悉chromium内核,熟悉js,熟悉dom; 4.熟悉常见的爬虫引擎,具有3年以上相关工作经验。; 爬虫工程师 1.严格遵守robots协议,负责大批量数据爬取; 2.负责爬虫代码的日常开发与维护,保证稳定性; 3.负责互联网资源清洗和结构化,网页转码,网页聚合,信息抽取,网页分类; 4.熟悉常见的风控策略,和JS混淆和浏览器引擎,可以快速开发网站采集。