网易资深爬虫开发工程师(杭州/广州)
社招全职5年以上网易职能地点:杭州状态:招聘
任职要求
1. 本科及以上学历,计算机相关专业,至少5年及以上项目开发经验,扎实的技术理论基础,数据结构以及算法等; 2. 熟练掌握 Python编程语言,掌握 Selenium、Scrapy、PlayWright等框架的用法,熟悉任意开源爬虫框架。 3. 熟悉 HTML、JavaScript,懂得分析常见 Web界面结构,掌握基本 jQuery、CSS、XPath等语法。 4. 熟悉 App逆向分析、调试、加固、混淆等技术;有 ollvm、unicorn开发经验优先。 5. 熟悉 HTTP、TCP等网络协议,精通 httpClient/jSoup/xpath/正则表达式/验证码处理/代理池等爬虫相关技术。 6. 掌握 Charles等抓包工具。 7. 了解 Android或iOS系统底层原理及机制,熟悉汇编语言和加解密算法。 8. 有深入的大规模分布式爬虫集群实践经验。 9. 对新技术保持热情,持续学习并乐于分享,勇于技术创新与技术改进。 10. 具备良好的沟通能力,积极主动、自驱力强,有强烈的团队意识和执行力。
工作职责
1. 设计、开发、维护、重构分布式网络爬虫,从各种网站、APP中抓取并清洗结构化数据。 2. 负责持续运营和更新爬虫程序,识别和解决数据源变化和其他问题。 3. 爬虫性能优化,包括处理性能、爬取策略、占用带宽、反爬虫机制等方面。 4. 能够统计和分析爬虫数据,与其他团队合作,如数据工程师、数据分析师协作,以确保数据采集系统的有效性和可靠性。
包括英文材料
学历+
数据结构+
https://www.youtube.com/watch?v=8hly31xKli0
In this course you will learn about algorithms and data structures, two of the fundamental topics in computer science.
https://www.youtube.com/watch?v=B31LgI4Y4DQ
Learn about data structures in this comprehensive course. We will be implementing these data structures in C or C++.
https://www.youtube.com/watch?v=CBYHwZcbD-s
Data Structures and Algorithms full course tutorial java
算法+
https://roadmap.sh/datastructures-and-algorithms
Step by step guide to learn Data Structures and Algorithms in 2025
https://www.hellointerview.com/learn/code
A visual guide to the most important patterns and approaches for the coding interview.
https://www.w3schools.com/dsa/
Python+
https://liaoxuefeng.com/books/python/introduction/index.html
中文,免费,零起点,完整示例,基于最新的Python 3版本。
https://www.learnpython.org/
a free interactive Python tutorial for people who want to learn Python, fast.
https://www.youtube.com/watch?v=K5KVEU3aaeQ
Master Python from scratch 🚀 No fluff—just clear, practical coding skills to kickstart your journey!
https://www.youtube.com/watch?v=rfscVS0vtbw
This course will give you a full introduction into all of the core concepts in python.
Selenium+
https://www.youtube.com/watch?v=j7VZsCCnptM
Learn Selenium by building a web scraping bot in Python.
https://www.youtube.com/watch?v=mOAXEQevCAE&list=PLhW3qG5bs-L_s9HdC5zNshE5Ti8jABwlU
HTML+
https://developer.mozilla.org/zh-CN/docs/Learn_web_development/Core/Structuring_content
[英文] Learn HTML
https://web.dev/learn/html
JavaScript+
https://developer.mozilla.org/zh-CN/docs/Learn_web_development/Core/Scripting
[英文] Learn JavaScript
https://learnjavascript.online/
The easiest way to learn & practice modern JavaScript
[英文] Learn JavaScript
https://web.dev/learn/javascript
https://www.youtube.com/watch?v=zuKbR4Q428o
Write bulletproof JavaScript code with unit testing!
Web+
https://web.dev/learn
Explore our growing collection of courses on key web design and development subjects.
jQuery+
https://learn.jquery.com/
If you're looking for explanations of the basics, workarounds for common problems, best practices, and how-tos, you're in the right place!
CSS+
HTTP+
https://developer.mozilla.org/zh-CN/docs/Web/HTTP
超文本传输协议(HTTP)是一个用于传输超媒体文档(例如 HTML)的应用层协议。它是为 Web 浏览器与 Web 服务器之间的通信而设计的,但也可以用于其他目的。
Android+
https://roadmap.sh/android
Step by step guide to becoming an Android developer .
https://www.youtube.com/playlist?list=PLQkwcJG4YTCSVDhww92llY3CAnc_vUhsm
iOS+
https://www.youtube.com/watch?v=UNH0bE4zPtY&list=PLSzsOkUDsvdu5Mm67aBYs2YPu2OM4mFzt
相关职位
社招3年以上技术
1、负责分布式爬虫系统架构的设计和开发; 2、负责对采集数据进行清洗、去重、结构化处理; 3、负责对反爬机制的研究分析,提升采集数据的成功率; 4、负责对系统的性能监控和调优,确保系统的高可用性和稳定性;
更新于 2025-09-18
社招2年以上住宿业务开发
1.负责分布式网络爬虫系统的设计与开发工作。2.对多平台数据源(WEB/APP/H5/小程序等)进行数据采集及分析。3.通过逆向、图像识别、行为分析等技术提升爬虫核心技术突破。4.设计数据采集策略,提升数据采集效率及质量。
更新于 2025-03-21