网易爬虫智能体研发工程师
任职要求
1.本科及以上学历,计算机相关专业,3年及以上工作经验,对数据采集和网络爬虫有深入理解 2. 有分布式数据采集系统的研发、架构经验,至少熟悉并使用过一种主流开源架构,如Scrapy、Gocolly等优先 3. 精通包括但不限于:Js防护、混淆、App防破解、防逆向、加固技术等技能 4. 有海量数据解析、清洗、存储相关项目经验,熟悉主流的大数据处理工具的使用 5· 熟悉一些常用的存储中间件,如:Mysql、Redis、MongoDB等数据库使用 6. 良好的沟通和团队合作能力,在业务上有敏锐的洞察力和积极性
工作职责
1.负责设计和优化数据采集策略与方案,开发高效稳定的数据采集服务,以有效获取多平台、多渠道的多模态数据(结构化文本、图片、音频、短剧、电视剧、电影等),满足业务多元的数据采集需求 2. 负责爬虫智能体架构设计研发以及稳定性保障,优化爬虫性能与效率,并确保多样性数据的质量 3. 参与UGC智能体社媒数据内容创作平台的构建

LLM Rerank方向*2 (1)支撑AI搜索产品算法效果&能力升级,支撑搜索+LLM产品的落地; (2)结合大模型提升重排、相关性和召回效果,提升搜索增强(RAG)、搜索业务的多维度相关性; (3)针对业务问题进行有效的问题拆解,组织工程、架构、数据方向解决问题; (4)参与和支撑LLM与搜索结合的相关项目,如:AI搜索、智能摘要、AIGC等。 综合数据质量*1 (1)支撑AI搜索产品算法效果&能力升级,支撑搜索+LLM产品的落地; (2)负责综合质量分模型、基于MLLM、LLM等模型搭建成熟的数据质量能力,提升搜索增强(RAG)、搜索业务的结果质量; (3)与工程、架构合作搭建成熟的离线特征计算、内容理解链路。 爬虫算法*1 (1)支撑AI搜索产品算法效果&能力升级,支撑搜索+LLM产品的落地; (2)负责爬虫相关算法、通过建设新链发现、链接选取、爬虫调度等算法提升数据的获取效率、时效等,提升搜索增强(RAG)、搜索业务的结果全面性和实时性; (3)与爬虫合作搭建成熟的爬虫平台、提升业务支撑能力; (4)支撑智能AI爬虫项目的算法能力建设,包括:web agent、智能爬虫插件等。
1、参与海量数据的价值挖掘和工程体系攻防技术突破等能力建设,以强大技术驱动力让商家、消费者通过平台撮合交易; 2、负责快手直播电商促销活动海量商品建设,打造完备的数据运营支持体系,探索新场景下的新玩法,服务上亿用户; 3、研究直播电商场景下全新的用户消费习惯、全新的选品策略、全新的商业化思路,以及全新的大数据、人工智能、工程技术应用场景,探索新消费习惯场下隐含的全新技术挑战。
1. 结合大模型应用需求,设计和优化高效、智能化的爬虫系统,进行多源数据采集。 2. 逆向分析目标网站及接口,绕过反爬机制,如验证码、动态加载、JS加密、IP封锁等,确保数据采集稳定性。 3. 针对大模型数据预处理要求,优化爬虫数据格式和质量,提升爬取的数据对训练和推理的适用性。 4. 结合大模型场景,自动化处理反爬机制变化,并提供灵活的技术解决方案。 5. 与大模型研发团队紧密合作,确保爬虫采集的数据能够有效支持模型训练与应用。 6. 跟进最新的反爬技术与反制策略,持续优化爬虫架构和性能。