小红书数据采集&解析工程师
社招全职3-5年数据引擎地点:北京 | 上海状态:招聘
任职要求
【数据采集工程师】 任职资格 1、3年以上爬虫 或 数据解析开发经验,熟练掌握 python、java、go 之一的语言 2、熟悉分布式爬虫架构,熟悉常见的风控策略、JS混淆、浏览器引擎 3、熟悉chromium内核/js/dom/html/css 等网页相关语言,能够完成数据解析工作,有大模型解析经验者优先 4、熟悉Linux常用命令,独立…
登录查看完整任职要求
微信扫码,1秒登录
工作职责
【数据采集工程师】 工作职责 1、负责分布式爬虫系统的设计与优化 2、负责大规模广域爬虫引擎的部署、开发、维护 3、负责大规模网页数据采集系统开发,互联网资源清洗和结构化,网页转码,网页聚合,信息抽取,网页分类 【数据解析工程师】 工作职责: 1、负责百亿级搜索内容解析系统建设,持续提升解析效果和性能 2、应用大模型技术,提升数据解析质量和成功率 3、负责互联网海量数据(网页、文档、富媒体等)的去重、清洗、结构化导入、分类、信息抽取与价值评估
包括英文材料
Python+
https://liaoxuefeng.com/books/python/introduction/index.html
中文,免费,零起点,完整示例,基于最新的Python 3版本。
https://www.learnpython.org/
a free interactive Python tutorial for people who want to learn Python, fast.
https://www.youtube.com/watch?v=K5KVEU3aaeQ
Master Python from scratch 🚀 No fluff—just clear, practical coding skills to kickstart your journey!
https://www.youtube.com/watch?v=rfscVS0vtbw
This course will give you a full introduction into all of the core concepts in python.
Java+
https://www.youtube.com/watch?v=eIrMbAQSU34
Master Java – a must-have language for software development, Android apps, and more! ☕️ This beginner-friendly course takes you from basics to real coding skills.
Go+
https://www.youtube.com/watch?v=8uiZC0l4Ajw
学习Golang的完整教程!从开始到结束不到一个小时,包括如何在Go中构建API的完整演示。没有多余的内容,只有你需要知道的知识。
HTML+
https://developer.mozilla.org/zh-CN/docs/Learn_web_development/Core/Structuring_content
[英文] Learn HTML
https://web.dev/learn/html
JavaScript+
https://developer.mozilla.org/zh-CN/docs/Learn_web_development/Core/Scripting
[英文] Learn JavaScript
https://learnjavascript.online/
The easiest way to learn & practice modern JavaScript
[英文] Learn JavaScript
https://web.dev/learn/javascript
https://www.youtube.com/watch?v=zuKbR4Q428o
Write bulletproof JavaScript code with unit testing!
CSS+
HTTP+
https://developer.mozilla.org/zh-CN/docs/Web/HTTP
超文本传输协议(HTTP)是一个用于传输超媒体文档(例如 HTML)的应用层协议。它是为 Web 浏览器与 Web 服务器之间的通信而设计的,但也可以用于其他目的。
还有更多 •••
相关职位
社招3-5年D6256
1、遵循robots协议,采集互联网上允许搜索爬虫采集的公开非敏感信息,满足大模型、电商、本地等公司核心业务数据需求; 2、负责分布式采集系统的建设与迭代优化,负责数据调度、采集、数据结构化、持久化全链路核心流程迭代升级; 3、帮助团队攻克各种采集技术难关,提升系统的采集效果与效率。
更新于 2025-09-29北京