logo of kuaishou

快手数据采集工程师

社招全职3-5年D6256地点:北京状态:招聘

任职要求


1、 本科及以上学历,计算机相关专业,对大数据和采集相关技术有浓厚的兴趣; 
2、熟悉JavaPython等语言,具备扎实的编码能力;熟悉主流采集技术及框架工具,如Frida、Puppeteer、Scrapy等;
3、熟悉常见反爬封禁策略,并具备相关的实战经验; 
4、加分项:逆向、混淆、脱壳、分布式、大模型数据挖掘

工作职责


1、遵循robots协议,采集互联网上允许搜索爬虫采集的公开非敏感信息,满足大模型、电商、本地等公司核心业务数据需求; 
2、负责分布式采集系统的建设与迭代优化,负责数据调度、采集、数据结构化、持久化全链路核心流程迭代升级; 
3、帮助团队攻克各种采集技术难关,提升系统的采集效果与效率。
包括英文材料
学历+
大数据+
Java+
Python+
Puppeteer+
大模型+
数据挖掘+
相关职位

logo of xiaohongshu
社招3年以上数据引擎

爬虫架构师 1.负责大规模广域爬虫引擎的部署、开发、维护; 2.负责爬虫系统的设计与优化; 3.熟悉chromium内核,熟悉js,熟悉dom; 4.熟悉常见的爬虫引擎,具有3年以上相关工作经验。; 爬虫工程师 1.严格遵守robots协议,负责大批量数据爬取; 2.负责爬虫代码的日常开发与维护,保证稳定性; 3.负责互联网资源清洗和结构化,网页转码,网页聚合,信息抽取,网页分类; 4.熟悉常见的风控策略,和JS混淆和浏览器引擎,可以快速开发网站采集。

logo of kuaishou
校招J1014

1、遵循robots协议,采集互联网上允许搜索爬虫采集的公开非敏感信息,满足大模型、电商、本地等公司核心业务数据需求;  2、负责分布式采集系统的建设与迭代优化,负责数据调度、采集、数据结构化、持久化全链路核心流程迭代升级;  3、帮助团队攻克各种采集技术难关,提升系统的采集效果与效率。

更新于 2025-07-30
logo of tcl
社招3年以上研发技术类

从公共、合成和人工来源获取和汇集数据集。 -自动化数据收集、清理和注释工作流程。 -审查和充实数据的质量和相关性。 -设置和管理注释工具和指南。 -维护数据集版本控制和文档编写。 -整合用户和产品的反馈,以改进数据。 - 与算法工程师、产品经理和其他团队合作。

更新于 2025-07-22
logo of ly
社招

1、本科及以上学历,3年及以上相关工作经验; 2、熟悉常用开源爬虫框架,如crapy/pypider/elenium,具备多线程开发思维,了解线程安全相关知识; 3、熟悉常用的信息抽取技术,熟练使用正则表达式,熟悉JS混淆.逆向分析.抓包.伪装证书等技能; 4、熟悉常见的反爬虫技术,熟悉代理使用,有一定的对抗能力; 5、好钻研相关技术,能够主动提出技术设想者加分。

更新于 2024-02-26