logo of mi

小米大模型爬虫逆向工程师

社招全职3年以上A133586地点:北京状态:招聘

任职要求


1. 本科及以上学历,计算机科学、人工智能、网络安全等相关专业。
2. 3年以上爬虫开发及逆向工程经验,有大模型或AI相关领域的爬虫应用经验者优先。
3. 熟悉并能绕过常见的反爬技术(如动态网页加载、验证码、JS加密等)。
4. 精通Python或其他编程语言,熟悉爬虫框架(如Scrapy、SeleniumPlaywright等)。
5. 熟悉大模型训练和数据处理流程,能够根据模型需求调整数据抓取策略。
6. 熟悉常见网络协议(HTTP/HTTPS)和接口抓取,能够对复杂数据进行高效提取和清洗。
7. 具备良好的分析能力和解决问题的能力,能够应对复杂的反爬挑战。

加分项:
1. 有大规模数据抓取与处理经验,尤其是针对大模型训练数据的采集和优化。
2. 熟悉数据加密与解密技术,能够破解复杂的加密算法。
3. 具备AI或大模型领域的技术背景,能够理解和支持模型数据需求。

我们提供:
1. 具有竞争力的薪资待遇与丰富的福利。
2. 与顶尖AI团队合作的机会,参与大模型应用开发与优化。
3. 灵活的工作环境与技术创新的空间。
4. 完善的职业发展和培训机会,助力技能提升和成长。

工作职责


1. 结合大模型应用需求,设计和优化高效、智能化的爬虫系统,进行多源数据采集。
2. 逆向分析目标网站及接口,绕过反爬机制,如验证码、动态加载、JS加密、IP封锁等,确保数据采集稳定性。
3. 针对大模型数据预处理要求,优化爬虫数据格式和质量,提升爬取的数据对训练和推理的适用性。
4. 结合大模型场景,自动化处理反爬机制变化,并提供灵活的技术解决方案。
5. 与大模型研发团队紧密合作,确保爬虫采集的数据能够有效支持模型训练与应用。
6. 跟进最新的反爬技术与反制策略,持续优化爬虫架构和性能。
包括英文材料
学历+
大模型+
JavaScript+
Python+
Selenium+
Playwright+
HTTP+
算法+
相关职位

logo of tencent
社招搜一搜技术

1.负责搜一搜运营系统研发工作; 2.参与大模型训练数据抓取,提升数据质量和多样性,保障数据满足业务要求; 3.参与分布式爬虫框架建设和性能优化,支持多渠道抓取,优化数据采集的效率与质量。

更新于 2025-06-20
logo of kuaishou
社招3-5年D6256

1、遵循robots协议,采集互联网上允许搜索爬虫采集的公开非敏感信息,满足大模型、电商、本地等公司核心业务数据需求; 2、负责分布式采集系统的建设与迭代优化,负责数据调度、采集、数据结构化、持久化全链路核心流程迭代升级; 3、帮助团队攻克各种采集技术难关,提升系统的采集效果与效率。

更新于 2025-09-29
logo of kuaishou
校招J1014

1、遵循robots协议,采集互联网上允许搜索爬虫采集的公开非敏感信息,满足大模型、电商、本地等公司核心业务数据需求;  2、负责分布式采集系统的建设与迭代优化,负责数据调度、采集、数据结构化、持久化全链路核心流程迭代升级;  3、帮助团队攻克各种采集技术难关,提升系统的采集效果与效率。

更新于 2025-07-30
logo of qunar
校招技术类

1、负责公司爬虫攻防的技术调研、需求开发、难点攻关和运维优化; 2、实时监控爬虫的运行状态和预警处理; 3、参与数据层建设,进行多平台信息的抓取和红蓝分析,实现数据去重、解析、清洗、入库、统计分析等需求; 4、负责持续跟踪分析爬虫/反爬系统的技术缺陷,对策略架构做出合理地调整和改进,提升公司相关产品与服务的竞争力。