logo of zhihu

知乎爬虫工程师

社招全职2年以上地点:北京状态:招聘

任职要求


1、精通Python及Scrapy框架,熟悉常见反爬应对策略
2、深入理解HTTP协议和前端渲染机制,能独立分析动态网页结构
3、掌握主流数据库(MySOL/MongoDB/Redis/HBas e等)和消息队列技术有分布式爬虫开发经验,熟悉任务调度与性能优化经验要求
4、2年以上爬虫开发经验,至少主导完成1个中大型爬虫项目落地有成功解决复杂反爬问题的实战案例(需面试演示)加分项

工作职责


1、索引库爬取与建设:负责搜索大环的设计和实现,优化搜索引擎爬虫算法,提高数据采集效率;分析和处理网页数据,提高网页解析的准度和效率。
2、责大规模网页数据的抓取、清洗及结构化存储,保障数据质量和时效性,突破各类反爬限制(如IP封禁、验证码、动态加密等),设计高效稳定的数据采集方案
3、设计并优化分布式爬虫架构,提升系统并发能力和容错性维护数据采集链路,协同数据分析团队完成数据交付与应用
包括英文材料
Python+
HTTP+
MySQL+
MongoDB+
Redis+
消息队列+
相关职位

logo of ly
社招1年以上

1. 负责数据挖掘核心技术研究和开发; 2. 对大数据进行分析,挖掘各类用户特征,使用统计建模方法分析用户; 3. 基于海量用户行为数据,构建用户画像及知识图谱,挖掘用户行为模式。

更新于 2025-08-11
logo of insta360
社招2年以上

1. 负责根据业务需求/规划开展爬虫工作,同时对现有爬虫进行维护和完善; 2. 持续进行爬虫核心技术研究和策略优化,攻克疑难技术问题,设计防屏蔽规则,提升数据抓取的效率和质量; 3. 建立爬虫监测体系,及时监控及解决运行过程中出现的问题,确保数据的稳定性和准确性; 4. 参与公司内部相关平台的架构设计与开发,并结合业务场景及NLP等技术,实现产品化。

更新于 2024-06-12
logo of xiaohongshu
社招3年以上数据引擎

爬虫架构师 1.负责大规模广域爬虫引擎的部署、开发、维护; 2.负责爬虫系统的设计与优化; 3.熟悉chromium内核,熟悉js,熟悉dom; 4.熟悉常见的爬虫引擎,具有3年以上相关工作经验。; 爬虫工程师 1.严格遵守robots协议,负责大批量数据爬取; 2.负责爬虫代码的日常开发与维护,保证稳定性; 3.负责互联网资源清洗和结构化,网页转码,网页聚合,信息抽取,网页分类; 4.熟悉常见的风控策略,和JS混淆和浏览器引擎,可以快速开发网站采集。

logo of mihoyo
社招3年以上程序&技术类

岗位职责: 1、遵循robots协议,爬取互联网上允许爬虫采集的公开信息; 2、参与爬虫平台架构设计与基础建设,维护爬取及数据处理任务,保障各类渠道数据的稳定性与正确性; 3、攻克各种爬虫技术难关,提升爬虫平台效果与性能; 4、支持其他的业务数据采集、渠道接入及系统维护等需求。