logo of xiaohongshu

小红书数据采集&解析工程师

社招全职3-5年数据引擎地点:北京 | 上海状态:招聘

任职要求


【数据采集工程师】
任职资格
1、3年以上爬虫 或 数据解析开发经验,熟练掌握 pythonjavago 之一的语言
2、熟悉分布式爬虫架构,熟悉常见的风控策略、JS混淆、浏览器引擎
3、熟悉chromium内核/js/dom/html/css 等网页相关语言,能够完成数据解析工作,有大模型解析经验者优先
4、熟悉Linux常用命令,独立…
登录查看完整任职要求
微信扫码,1秒登录

工作职责


【数据采集工程师】
工作职责
1、负责分布式爬虫系统的设计与优化
2、负责大规模广域爬虫引擎的部署、开发、维护
3、负责大规模网页数据采集系统开发,互联网资源清洗和结构化,网页转码,网页聚合,信息抽取,网页分类

【数据解析工程师】
工作职责:
1、负责百亿级搜索内容解析系统建设,持续提升解析效果和性能
2、应用大模型技术,提升数据解析质量和成功率
3、负责互联网海量数据(网页、文档、富媒体等)的去重、清洗、结构化导入、分类、信息抽取与价值评估
包括英文材料
Python+
Java+
Go+
HTML+
JavaScript+
CSS+
HTTP+
还有更多 •••
相关职位

logo of kuaishou
社招3-5年D6256

1、遵循robots协议,采集互联网上允许搜索爬虫采集的公开非敏感信息,满足大模型、电商、本地等公司核心业务数据需求; 2、负责分布式采集系统的建设与迭代优化,负责数据调度、采集、数据结构化、持久化全链路核心流程迭代升级; 3、帮助团队攻克各种采集技术难关,提升系统的采集效果与效率。

更新于 2025-09-29北京
logo of xiaohongshu
实习数据后端

遵循robots协议,爬取互联网上允许搜索爬虫采集的公开信息

更新于 2025-04-25上海
logo of didi
社招3年以上安全

1、负责分布式数据采集系统的设计和开发; 2、负责账号cookie保持,vps资源管理、数据清洗和处理等工作。

更新于 2025-12-11北京
logo of kuaishou
校招J1014

1、遵循robots协议,采集互联网上允许搜索爬虫采集的公开非敏感信息,满足大模型、电商、本地等公司核心业务数据需求;  2、负责分布式采集系统的建设与迭代优化,负责数据调度、采集、数据结构化、持久化全链路核心流程迭代升级;  3、帮助团队攻克各种采集技术难关,提升系统的采集效果与效率。

更新于 2025-07-30北京