logo of autohome

汽车之家数据抓取高级工程师

社招全职2年以上技术地点:北京状态:招聘

任职要求


1. 熟练 Python,熟悉 MySQLMongoDBRedisKafkaGit,熟悉 Linux 环境
2. 掌握分布式、多线程,精通 Scrapy/Scrapy-Redis、Feapder 等至少一种爬虫框架
3. 熟练抓包工具、网页解析(正则、XPath),能处理结构化/非结构化数据
4. 精通 JS
登录查看完整任职要求
微信扫码,1秒登录

工作职责


1. 负责分布式爬虫系统开发、落地与迭代,保证数据采集稳定高效、全面及时
2. 优化爬虫策略、反爬对抗、调度机制、代理IP,提升抓取成功率与实时性
3. 监控爬虫运行、处理异常预警,维护系统稳定性与效率
4. 完成多平台数据爬取、内容解析、数据清洗与存储,优化数据平台
5. 参与爬虫核心算法、自动化平台设计与持续迭代
包括英文材料
Python+
MySQL+
MongoDB+
Redis+
Kafka+
Git+
还有更多 •••
相关职位

logo of bytedance
社招2年以上A09576

1、负责公司AI场景数据抓取解决方案架构设计和研发,负责海量的接口查询服务,海量的数据接收、存储和查询; 2、负责参与深度定制Headless引擎,完成核心模块研发工作。

更新于 2023-12-19深圳
logo of bytedance
社招2年以上A159321A

1、负责公司AI场景数据抓取解决方案架构设计和研发,负责海量的接口查询服务,海量的数据接收、存储和查询; 2、负责参与深度定制Headless引擎,完成核心模块研发工作。

更新于 2023-12-19杭州
logo of oppo
社招5-16年SOFTWARE

1、负责WEB端/APP端 接口的协议逆向破解,解决网站/APP分析的加密、混淆等实际问题; 2、负责数据抓取的全面性、准确性、及时性建设,解决抓取过程中遇到的技术问题和挑战; 3、负责构建代理IP池、指纹浏览器池,设计资源调度管理爬虫资源;

更新于 2025-10-31深圳
logo of meituan
社招4年以上核心本地商业-基

负责页面信息提取和页面理解技术的选型和优化 负责文档理解技术的选型和优化 跟踪和研究前沿技术,不断优化页面和文档理解技术

更新于 2025-05-14北京