百度内容收录工程师(J90459)
社招全职1年以上MEG地点:北京状态:招聘
任职要求
-计算机相关专业,本科及以上学历,1 年以上爬虫 -熟悉 HTTP、WebSocket 等协议,精通 Android 端抓取技术、HOOK、代码注入、反调试等经验 -精通 Python / Java 等至少一种编程语言,熟悉 Scrapy、Selenium、…
登录查看完整任职要求
微信扫码,1秒登录
工作职责
-优化大规模分布式爬虫系统,支持海量移动端数据抓取 -研究并优化爬虫调度策略,提高抓取效率、成功率及内容覆盖率 -处理反爬机制,优化 UA、IP 池、动态调度等策略,提升抓取稳定性 -监控和优化爬虫集群性能,优化异常检测、爬取策略调优等机制 -研究 Android 端抓取技术,包括但不限于群控、HOOK、代码注入、动态调试等手段,提高数据获取能力 -与搜索、推荐、算法等团队协作,优化内容收录与数据利用策略
包括英文材料
学历+
HTTP+
https://developer.mozilla.org/zh-CN/docs/Web/HTTP
超文本传输协议(HTTP)是一个用于传输超媒体文档(例如 HTML)的应用层协议。它是为 Web 浏览器与 Web 服务器之间的通信而设计的,但也可以用于其他目的。
WebSocket+
[英文] WebSockets Tutorial
https://www.tutorialspoint.com/websockets/index.htm
Web sockets are defined as a two-way communication between the servers and the clients, which mean both the parties, communicate and exchange data at the same time.
Android+
https://roadmap.sh/android
Step by step guide to becoming an Android developer .
https://www.youtube.com/playlist?list=PLQkwcJG4YTCSVDhww92llY3CAnc_vUhsm
还有更多 •••
相关职位
社招MEG
-负责大型spider系统的核心技术研究和开发,全面覆盖各种形态、载体和来源的优质资源 -借助自然语言处理、大模型等技术,深入挖掘资源内容特征和潜在价值,迭代全网内容收录与更新策略和算法 -以通用技术,从千亿量级网页中提取有价值的信息,对网页进行充分的结构理解 -基于数据挖掘和数据分析,对于业务方向产出精准的洞察
更新于 2025-09-03北京
社招MEG
-负责大型spider系统的核心技术研究和开发,全面覆盖各种形态、载体和来源的优质资源 -借助自然语言处理、大模型等技术,深入挖掘资源内容特征和潜在价值,迭代全网内容收录与更新策略和算法 -以通用技术,从千亿量级网页中提取有价值的信息,对网页进行充分的结构理解 -基于数据挖掘和数据分析,对于业务方向产出精准的洞察
更新于 2025-09-25北京
社招MEG
-负责全网优质内容收录和索引中相关核心技术研究与开发 -基于深度学习、大模型等,打造业界领先的内容理解技术体系 -设计策略和算法及分析系统的技术缺陷,对策略和系统做出合理的优化升级 -基于数据挖掘和数据分析,对于业务方向产出精准的洞察
更新于 2025-09-25北京