小米大模型爬虫逆向工程师
社招全职3年以上A133586地点:北京状态:招聘
任职要求
1. 本科及以上学历,计算机科学、人工智能、网络安全等相关专业。 2. 3年以上爬虫开发及逆向工程经验,有大模型或AI相关领域的爬虫应用经验者优先。 3. 熟悉并能绕过常见的反爬技术(如动态网页加载、验证码、JS加密等)。 4. 精通Python或其他编程语言,熟悉爬虫框架(如Scrapy、Selenium、Playwright等)。 5. 熟悉大模型训练和数据处理流程,能够根据模型需求调整数据抓取策略。 6. 熟悉常见网络协议(HTTP/HTTPS)和接口抓取,能够对复杂数据进行高效提取和清洗。 7. 具备良好的分析能力和解决问题的能力,能够应对复杂的反爬挑战。 加分项: 1. 有大规模数据抓取与处理经验,尤其是针对大模型训练数据的采集和优化。 2. 熟悉数据加密与解密技术,能够破解复杂的加密算法。 3. 具备AI或大模型领域的技术背景,能够理解和支持模型数据需求。 我们提供: 1. 具有竞争力的薪资待遇与丰富的福利。 2. 与顶尖AI团队合作的机会,参与大模型应用开发与优化。 3. 灵活的工作环境与技术创新的空间。 4. 完善的职业发展和培训机会,助力技能提升和成长。
工作职责
1. 结合大模型应用需求,设计和优化高效、智能化的爬虫系统,进行多源数据采集。 2. 逆向分析目标网站及接口,绕过反爬机制,如验证码、动态加载、JS加密、IP封锁等,确保数据采集稳定性。 3. 针对大模型数据预处理要求,优化爬虫数据格式和质量,提升爬取的数据对训练和推理的适用性。 4. 结合大模型场景,自动化处理反爬机制变化,并提供灵活的技术解决方案。 5. 与大模型研发团队紧密合作,确保爬虫采集的数据能够有效支持模型训练与应用。 6. 跟进最新的反爬技术与反制策略,持续优化爬虫架构和性能。
包括英文材料
学历+
大模型+
https://www.youtube.com/watch?v=xZDB1naRUlk
You will build projects with LLMs that will enable you to create dynamic interfaces, interact with vast amounts of text data, and even empower LLMs with the capability to browse the internet for research papers.
https://www.youtube.com/watch?v=zjkBMFhNj_g
JavaScript+
https://developer.mozilla.org/zh-CN/docs/Learn_web_development/Core/Scripting
[英文] Learn JavaScript
https://learnjavascript.online/
The easiest way to learn & practice modern JavaScript
[英文] Learn JavaScript
https://web.dev/learn/javascript
https://www.youtube.com/watch?v=zuKbR4Q428o
Write bulletproof JavaScript code with unit testing!
Python+
https://liaoxuefeng.com/books/python/introduction/index.html
中文,免费,零起点,完整示例,基于最新的Python 3版本。
https://www.learnpython.org/
a free interactive Python tutorial for people who want to learn Python, fast.
https://www.youtube.com/watch?v=K5KVEU3aaeQ
Master Python from scratch 🚀 No fluff—just clear, practical coding skills to kickstart your journey!
https://www.youtube.com/watch?v=rfscVS0vtbw
This course will give you a full introduction into all of the core concepts in python.
Selenium+
https://www.youtube.com/watch?v=j7VZsCCnptM
Learn Selenium by building a web scraping bot in Python.
https://www.youtube.com/watch?v=mOAXEQevCAE&list=PLhW3qG5bs-L_s9HdC5zNshE5Ti8jABwlU
Playwright+
https://learn.microsoft.com/en-us/training/modules/build-with-playwright/
In this module, you'll learn how to use Playwright to test a sample web application.
https://playwright.dev/docs/intro
Playwright Test is an end-to-end test framework for modern web apps.
https://www.youtube.com/watch?v=hN1Zn6kLntk
HTTP+
https://developer.mozilla.org/zh-CN/docs/Web/HTTP
超文本传输协议(HTTP)是一个用于传输超媒体文档(例如 HTML)的应用层协议。它是为 Web 浏览器与 Web 服务器之间的通信而设计的,但也可以用于其他目的。
算法+
https://roadmap.sh/datastructures-and-algorithms
Step by step guide to learn Data Structures and Algorithms in 2025
https://www.hellointerview.com/learn/code
A visual guide to the most important patterns and approaches for the coding interview.
https://www.w3schools.com/dsa/
相关职位
社招搜一搜技术
1.负责搜一搜运营系统研发工作; 2.参与大模型训练数据抓取,提升数据质量和多样性,保障数据满足业务要求; 3.参与分布式爬虫框架建设和性能优化,支持多渠道抓取,优化数据采集的效率与质量。
更新于 2025-06-20
社招3-5年D6256
1、遵循robots协议,采集互联网上允许搜索爬虫采集的公开非敏感信息,满足大模型、电商、本地等公司核心业务数据需求; 2、负责分布式采集系统的建设与迭代优化,负责数据调度、采集、数据结构化、持久化全链路核心流程迭代升级; 3、帮助团队攻克各种采集技术难关,提升系统的采集效果与效率。
更新于 2025-09-29
校招J1014
1、遵循robots协议,采集互联网上允许搜索爬虫采集的公开非敏感信息,满足大模型、电商、本地等公司核心业务数据需求; 2、负责分布式采集系统的建设与迭代优化,负责数据调度、采集、数据结构化、持久化全链路核心流程迭代升级; 3、帮助团队攻克各种采集技术难关,提升系统的采集效果与效率。
更新于 2025-07-30