logo of mihoyo

米哈游数据爬虫工程师

社招全职3年以上程序&技术类地点:上海状态:招聘

任职要求


岗位要求:
1、计算机相关专业,本科及以上学历;
2、3 年以上爬虫相关开发经验;
3、熟悉 Python,熟悉主流爬虫技术方案;具备良好的前端分析能力;熟悉常用中间件KafkaRedis等;
4、善于分析和解决问题,勇于面对各类挑战;
5、有良好的沟通协调能力,能承受一定压力,工作主动性强,责任心强。

工作职责


岗位职责:
 1、遵循robots协议,爬取互联网上允许爬虫采集的公开信息;
2、参与爬虫平台架构设计与基础建设,维护爬取及数据处理任务,保障各类渠道数据的稳定性与正确性;
3、攻克各种爬虫技术难关,提升爬虫平台效果与性能;
4、支持其他的业务数据采集、渠道接入及系统维护等需求。
包括英文材料
学历+
Python+
中间件+
Kafka+
Redis+
相关职位

logo of mihoyo
校招程序&技术类

岗位职责: 1、遵循robots协议,爬取互联网上允许爬虫采集的公开信息; 2、参与爬虫平台架构设计与基础建设,维护爬取及数据处理任务,保障各类渠道数据的稳定性与正确性; 3、攻克各种爬虫技术难关,提升爬虫平台效果与性能; 4、支持其他的业务数据采集、渠道接入及系统维护等需求。

logo of netease
社招5年以上网易职能

1. 设计、开发、维护、重构分布式网络爬虫,从各种网站、APP中抓取并清洗结构化数据。 2. 负责持续运营和更新爬虫程序,识别和解决数据源变化和其他问题。 3. 爬虫性能优化,包括处理性能、爬取策略、占用带宽、反爬虫机制等方面。 4. 能够统计和分析爬虫数据,与其他团队合作,如数据工程师、数据分析师协作,以确保数据采集系统的有效性和可靠性。

更新于 2025-06-20
logo of mi
社招3年以上A133586

1. 结合大模型应用需求,设计和优化高效、智能化的爬虫系统,进行多源数据采集。 2. 逆向分析目标网站及接口,绕过反爬机制,如验证码、动态加载、JS加密、IP封锁等,确保数据采集稳定性。 3. 针对大模型数据预处理要求,优化爬虫数据格式和质量,提升爬取的数据对训练和推理的适用性。 4. 结合大模型场景,自动化处理反爬机制变化,并提供灵活的技术解决方案。 5. 与大模型研发团队紧密合作,确保爬虫采集的数据能够有效支持模型训练与应用。 6. 跟进最新的反爬技术与反制策略,持续优化爬虫架构和性能。

更新于 2025-03-17
logo of xiaohongshu
社招3年以上数据引擎

爬虫架构师 1.负责大规模广域爬虫引擎的部署、开发、维护; 2.负责爬虫系统的设计与优化; 3.熟悉chromium内核,熟悉js,熟悉dom; 4.熟悉常见的爬虫引擎,具有3年以上相关工作经验。; 爬虫工程师 1.严格遵守robots协议,负责大批量数据爬取; 2.负责爬虫代码的日常开发与维护,保证稳定性; 3.负责互联网资源清洗和结构化,网页转码,网页聚合,信息抽取,网页分类; 4.熟悉常见的风控策略,和JS混淆和浏览器引擎,可以快速开发网站采集。