
同程旅行高级数据采集工程师
任职要求
1、了解项目目标,确定信息搜寻方向,为数据分析提供数据支持;
2 、自动化完成针对演唱会休闲玩乐等地域性信息收集,竞品信息收集,及其他相关影响因素数据收集,并…工作职责
1、本科及以上学历,3年及以上相关工作经验; 2、熟悉常用开源爬虫框架,如crapy/pypider/elenium,具备多线程开发思维,了解线程安全相关知识; 3、熟悉常用的信息抽取技术,熟练使用正则表达式,熟悉JS混淆.逆向分析.抓包.伪装证书等技能; 4、熟悉常见的反爬虫技术,熟悉代理使用,有一定的对抗能力; 5、好钻研相关技术,能够主动提出技术设想者加分。
1. 遵循robots 协议,对互联网公开信息进行采集; 2. 负责网页信息抽取技术算法的研究和开发,提升数据采集的效率和质量; 3. 负责设计和开发分布式的网络数据采集技术,能独立解决实际开发过程碰到的各类问题(优化调度、并发、覆盖率等) ,提升数据采集的效果与性能; 4. 负责数据采集解析入库、系统异常监控与警报等。
大数据工程部定位于为基座模型及业务提供高质量数据与 AI 化解决方案。我们以数据为核心,通过数据工程与模型算法相结合的方式,加速大模型在数据、实验与评测环节的迭代效率,持续沉淀高价值数据资产,支撑模型与应用的演进。在具体实践中,我们面向多语言、多模态大模型训练,开展数据清洗、去重、打标等关键算法与方法建设,并系统性构建预训练与后训练数据管道,从质量、覆盖度与多样性等维度提升数据整体水平,持续助力模型效果提升。同时,我们积极探索合成数据、数据规模扩展规律、多模态数据对齐等前沿数据方向,将数据侧的创新转化为可验证、可复用的模型收益。 岗位职责 1.设计分布式爬虫与调度策略,支撑万亿级 Token 数据供给,开发高可用采集工具,突破反爬,对接多源数据,保障日均 TB 级采集能力。 2.参与搭建自动化清洗 / 去重 / 脱敏流水线,保障数据质量与合规性。维护采集 - 存储 - 处理全链路,监控 SLA,支持云原生与私有化部署。 3.优化数据策略,提升数据性价比与模型对齐度。
1、建设全站的基础数据能力,提供丰富、稳定的短视频社区公共基础数据,探索更多数据能力的增量价值; 2、通过业务数据需求,提供数据采集埋点方案,跟进埋点全流程,交付结果,推进埋点质量相关建设; 3、各类数据专题体系(如房产、快聘等业务)的建设,通过数据+算法+产品,赋能业务,提供全链路、可分析、可复用的数据能力,提供更直观、更具分析指导性的产品化能力; 4、建设公司层面的核心数据资产,与业务场景深度结合,为社区服务提供数据服务化、数据业务化的数据&产品解决方案; 5、建设全站数据治理和管理体系,结合业务+元数据+技术,保障公司各个业务服务的数据质量和产出稳定。
1、建设全站的基础数据能力,提供丰富、稳定的短视频社区公共基础数据,探索更多数据能力的增量价值; 2、通过业务数据需求,提供数据采集埋点方案,跟进埋点全流程,交付结果,推进埋点质量相关建设; 3、支持消费、本地生活等业务的数据建设,通过数据+算法+产品,赋能业务,提供全链路、可分析、可复用的数据能力,提供更直观、更具分析指导性的产品化能力; 4、建设公司层面的核心数据资产,与业务场景深度结合,为社区服务提供数据服务化、数据业务化的数据&产品解决方案; 5、建设全站数据治理和管理体系,结合业务+元数据+技术,保障公司各个业务服务的数据质量和产出稳定。