米哈游数据爬虫工程师
校招全职程序&技术类地点:上海状态:招聘
任职要求
岗位要求: 1、本科及以上学历,计算机、软件、人工智能等相关专业; 2、熟悉 Python,熟悉主流爬虫技术方案;具备良好的前端分析能力;熟悉常用中间件如Kafka、Redis等; 3、善于分析和解决问题,勇于面对各类挑战; 4、有良好的沟通协调能力,能承受一定压力,工作主动性强,责任心强。
工作职责
岗位职责: 1、遵循robots协议,爬取互联网上允许爬虫采集的公开信息; 2、参与爬虫平台架构设计与基础建设,维护爬取及数据处理任务,保障各类渠道数据的稳定性与正确性; 3、攻克各种爬虫技术难关,提升爬虫平台效果与性能; 4、支持其他的业务数据采集、渠道接入及系统维护等需求。
包括英文材料
学历+
Python+
https://liaoxuefeng.com/books/python/introduction/index.html
中文,免费,零起点,完整示例,基于最新的Python 3版本。
https://www.learnpython.org/
a free interactive Python tutorial for people who want to learn Python, fast.
https://www.youtube.com/watch?v=K5KVEU3aaeQ
Master Python from scratch 🚀 No fluff—just clear, practical coding skills to kickstart your journey!
https://www.youtube.com/watch?v=rfscVS0vtbw
This course will give you a full introduction into all of the core concepts in python.
中间件+
https://www.youtube.com/watch?v=1oWPUpMheGk
Kafka+
https://developer.confluent.io/what-is-apache-kafka/
https://www.youtube.com/watch?v=CU44hKLMg7k
https://www.youtube.com/watch?v=j4bqyAMMb7o&list=PLa7VYi0yPIH0KbnJQcMv5N9iW8HkZHztH
In this Apache Kafka fundamentals course, we introduce you to the basic Apache Kafka elements and APIs, as well as the broader Kafka ecosystem.
Redis+
[英文] Developer Hub
https://redis.io/dev/
Get all the tutorials, learning paths, and more you need to start building—fast.
https://www.runoob.com/redis/redis-tutorial.html
REmote DIctionary Server(Redis) 是一个由 Salvatore Sanfilippo 写的 key-value 存储系统,是跨平台的非关系型数据库。
https://www.youtube.com/watch?v=jgpVdJB2sKQ
In this video I will be covering Redis in depth from how to install it, what commands you can use, all the way to how to use it in a real world project.
相关职位
社招3年以上程序&技术类
岗位职责: 1、遵循robots协议,爬取互联网上允许爬虫采集的公开信息; 2、参与爬虫平台架构设计与基础建设,维护爬取及数据处理任务,保障各类渠道数据的稳定性与正确性; 3、攻克各种爬虫技术难关,提升爬虫平台效果与性能; 4、支持其他的业务数据采集、渠道接入及系统维护等需求。
社招5年以上网易职能
1. 设计、开发、维护、重构分布式网络爬虫,从各种网站、APP中抓取并清洗结构化数据。 2. 负责持续运营和更新爬虫程序,识别和解决数据源变化和其他问题。 3. 爬虫性能优化,包括处理性能、爬取策略、占用带宽、反爬虫机制等方面。 4. 能够统计和分析爬虫数据,与其他团队合作,如数据工程师、数据分析师协作,以确保数据采集系统的有效性和可靠性。
更新于 2025-06-20
社招3年以上A133586
1. 结合大模型应用需求,设计和优化高效、智能化的爬虫系统,进行多源数据采集。 2. 逆向分析目标网站及接口,绕过反爬机制,如验证码、动态加载、JS加密、IP封锁等,确保数据采集稳定性。 3. 针对大模型数据预处理要求,优化爬虫数据格式和质量,提升爬取的数据对训练和推理的适用性。 4. 结合大模型场景,自动化处理反爬机制变化,并提供灵活的技术解决方案。 5. 与大模型研发团队紧密合作,确保爬虫采集的数据能够有效支持模型训练与应用。 6. 跟进最新的反爬技术与反制策略,持续优化爬虫架构和性能。
更新于 2025-03-17