
哈啰资深爬虫工程师-数据平台
任职要求
1. 全日制本科及以上学历,计算机相关专业; 2. 掌握java或python编程语言,熟悉多线程编程,熟悉scrapy、pyspider、webmagic、nutch等其中一个或多个爬虫框架以及原理; 3. 熟悉网页抓取的原理和技术,精通正则表达式,熟悉网络协议及数据交换标准,能够快速解析各类结构化及非结构化数据; 4. 有redis、memcache、HBase、Lucene、Solr、ElasticSearch等相关使用经验的优先,有分布式爬虫系统的开发经验优先; 5. 有责任心,工作有计划性,有良好的学习能力,具备优秀的沟通能力和团队精神。
工作职责
1. 负责公司的爬虫平台建设与业务支撑; 2. 负责公司爬虫的技术调研以及策略优化; 3. 负责制定相关的反爬虫安全策略。
1.负责分布式网络爬虫系统的设计与开发工作。2.对多平台数据源(WEB/APP/H5/小程序等)进行数据采集及分析。3.通过逆向、图像识别、行为分析等技术提升爬虫核心技术突破。4.设计数据采集策略,提升数据采集效率及质量。
1. 深入理解滴滴海外业务模式、流程和系统架构,和相关产品技术、业务运营高效沟通,设计合理的数据仓库架构。 2. 充分利用滴滴现有的各种数据仓库及反作弊处理平台,设计、开发和维护高效、可扩展的大数据处理系统,以支持安全反作弊业务的数据驱动决策和业务发展。设计并优化离线/实时数仓模型(如 ODS、DWD、DWS、ADS 分层),支持实时报表、监控和风控等场景。 3. 对多源异构数据(日志、事件消息、API、爬虫数据等)进行清洗、解析和结构化处理,提取关键业务信息。解决数据清洗中的 脏数据、格式混乱、缺失值、重复数据 等问题,提升数据质量。与数据开发、算法、业务团队协作,理解需求并构建高效的数据处理流程。 4. 跟踪大数据领域的新技术、新工具,不断探索并引入以提升团队的技术能力和项目效率。优化流式计算任务的 资源利用率(如 Flink 任务调优、Kafka 分区策略调整)。 5. 国际化安全反作弊技术团队其他开发工作。
1. 深入理解滴滴海外业务模式、流程和系统架构,和相关产品技术、业务运营高效沟通,设计合理的数据仓库架构。 2. 充分利用滴滴现有的各种数据仓库及反作弊处理平台,设计、开发和维护高效、可扩展的大数据处理系统,以支持安全反作弊业务的数据驱动决策和业务发展。设计并优化离线/实时数仓模型(如 ODS、DWD、DWS、ADS 分层),支持实时报表、监控和风控等场景。 3. 对多源异构数据(日志、事件消息、API、爬虫数据等)进行清洗、解析和结构化处理,提取关键业务信息。解决数据清洗中的 脏数据、格式混乱、缺失值、重复数据 等问题,提升数据质量。与数据开发、算法、业务团队协作,理解需求并构建高效的数据处理流程。 4. 跟踪大数据领域的新技术、新工具,不断探索并引入以提升团队的技术能力和项目效率。优化流式计算任务的 资源利用率(如 Flink 任务调优、Kafka 分区策略调整)。 5. 国际化安全反作弊技术团队其他开发工作。