logo of deepseek

深度求索高级数据采集工程师(AGI)

社招全职系统地点:杭州状态:招聘

任职要求


1. 具备扎实的编程能力、优秀的设计能力和代码品味,具有强烈的责任心
2. 熟练掌握HTMLJavaScriptPython、Scrapy等,能快速完成采集脚本的编写;
3. 了解主流网络数据采集技术和框架工具,如Selenium/Puppeteer/PhantomJS/Scrapy等;
4. 了解NLP基本技术,实际使用过如 Fasttext、N-gram、BertGPT算法和模型者优先;
5. 熟悉常见限制访问服务器资源和获取数据技术,具备相关的实战经验。

工作职责


1. 遵循robots 协议,对互联网公开信息进行采集;
2. 负责网页信息抽取技术算法的研究和开发,提升数据采集的效率和质量;
3. 负责设计和开发分布式的网络数据采集技术,能独立解决实际开发过程碰到的各类问题(优化调度、并发、覆盖率等) ,提升数据采集的效果与性能;
4. 负责数据采集解析入库、系统异常监控与警报等。
包括英文材料
HTML+
JavaScript+
Python+
脚本+
Selenium+
Puppeteer+
NLP+
BERT+
GPT+
算法+
相关职位

logo of ly
社招

1、本科及以上学历,3年及以上相关工作经验; 2、熟悉常用开源爬虫框架,如crapy/pypider/elenium,具备多线程开发思维,了解线程安全相关知识; 3、熟悉常用的信息抽取技术,熟练使用正则表达式,熟悉JS混淆.逆向分析.抓包.伪装证书等技能; 4、熟悉常见的反爬虫技术,熟悉代理使用,有一定的对抗能力; 5、好钻研相关技术,能够主动提出技术设想者加分。

更新于 2024-02-26
logo of kuaishou
社招D2816

1、建设全站的基础数据能力,提供丰富、稳定的短视频社区公共基础数据,探索更多数据能力的增量价值; 2、通过业务数据需求,提供数据采集埋点方案,跟进埋点全流程,交付结果,推进埋点质量相关建设; 3、各类数据专题体系(如房产、快聘等业务)的建设,通过数据+算法+产品,赋能业务,提供全链路、可分析、可复用的数据能力,提供更直观、更具分析指导性的产品化能力; 4、建设公司层面的核心数据资产,与业务场景深度结合,为社区服务提供数据服务化、数据业务化的数据&产品解决方案; 5、建设全站数据治理和管理体系,结合业务+元数据+技术,保障公司各个业务服务的数据质量和产出稳定。

更新于 2025-04-17
logo of kuaishou
社招D11761

1、建设全站的基础数据能力,提供丰富、稳定的短视频社区公共基础数据,探索更多数据能力的增量价值; 2、通过业务数据需求,提供数据采集埋点方案,跟进埋点全流程,交付结果,推进埋点质量相关建设; 3、支持消费、本地生活等业务的数据建设,通过数据+算法+产品,赋能业务,提供全链路、可分析、可复用的数据能力,提供更直观、更具分析指导性的产品化能力; 4、建设公司层面的核心数据资产,与业务场景深度结合,为社区服务提供数据服务化、数据业务化的数据&产品解决方案; 5、建设全站数据治理和管理体系,结合业务+元数据+技术,保障公司各个业务服务的数据质量和产出稳定。

更新于 2025-03-07
logo of alibaba
社招3年以上

1. 负责直播数据仓库和数据集市的研发,通过合理的数据架构,保障内外数据的准确性、一致性和稳定性,包括数据采集、数据清洗、模型设计、数据治理及稳定性保障。 2. 负责直播实时数据架构的设计和建设,满足实时数据在多个场景快速迭代的需求,建设端到端的数据质量保障体系。 3. 深入理解业务,通过对业务策略的洞察,收敛业务数据需求,提供系统性的解决方案并落地。

更新于 2025-06-12