logo of netease

网易爬虫智能体研发工程师

社招全职3-5年网易游戏(雷火)地点:杭州状态:招聘

任职要求


1.本科及以上学历,计算机相关专业,3年及以上工作经验,对数据采集和网络爬虫有深入理解
2. 有分布式数据采集系统的研发、架构经验,至少熟悉并使用过一种主流开源架构,如Scrapy、Gocolly等优先
3. 精通包括但不限于:Js防护、混淆、App防破解、防逆向、加固技术等技能
4. 有海量数据解析、清洗、存储相关项目经验,熟悉主流的大数据处理工具的使用
5· 熟悉一些常用的存储中间件,如:MysqlRedisMongoDB等数据库使用
6. 良好的沟通和团队合作能力,在业务上有敏锐的洞察力和积极性

工作职责


1.负责设计和优化数据采集策略与方案,开发高效稳定的数据采集服务,以有效获取多平台、多渠道的多模态数据(结构化文本、图片、音频、短剧、电视剧、电影等),满足业务多元的数据采集需求
2. 负责爬虫智能体架构设计研发以及稳定性保障,优化爬虫性能与效率,并确保多样性数据的质量
3. 参与UGC智能体社媒数据内容创作平台的构建
包括英文材料
学历+
JavaScript+
中间件+
MySQL+
Redis+
MongoDB+
相关职位

logo of 10jqka
社招

LLM Rerank方向*2 (1)支撑AI搜索产品算法效果&能力升级,支撑搜索+LLM产品的落地; (2)结合大模型提升重排、相关性和召回效果,提升搜索增强(RAG)、搜索业务的多维度相关性; (3)针对业务问题进行有效的问题拆解,组织工程、架构、数据方向解决问题; (4)参与和支撑LLM与搜索结合的相关项目,如:AI搜索、智能摘要、AIGC等。 综合数据质量*1 (1)支撑AI搜索产品算法效果&能力升级,支撑搜索+LLM产品的落地; (2)负责综合质量分模型、基于MLLM、LLM等模型搭建成熟的数据质量能力,提升搜索增强(RAG)、搜索业务的结果质量; (3)与工程、架构合作搭建成熟的离线特征计算、内容理解链路。 爬虫算法*1 (1)支撑AI搜索产品算法效果&能力升级,支撑搜索+LLM产品的落地; (2)负责爬虫相关算法、通过建设新链发现、链接选取、爬虫调度等算法提升数据的获取效率、时效等,提升搜索增强(RAG)、搜索业务的结果全面性和实时性; (3)与爬虫合作搭建成熟的爬虫平台、提升业务支撑能力; (4)支撑智能AI爬虫项目的算法能力建设,包括:web agent、智能爬虫插件等。

logo of kuaishou
社招3-5年D5201

1、参与海量数据的价值挖掘和工程体系攻防技术突破等能力建设,以强大技术驱动力让商家、消费者通过平台撮合交易; 2、负责快手直播电商促销活动海量商品建设,打造完备的数据运营支持体系,探索新场景下的新玩法,服务上亿用户; 3、研究直播电商场景下全新的用户消费习惯、全新的选品策略、全新的商业化思路,以及全新的大数据、人工智能、工程技术应用场景,探索新消费习惯场下隐含的全新技术挑战。

更新于 2025-08-07
logo of mi
社招3年以上A133586

1. 结合大模型应用需求,设计和优化高效、智能化的爬虫系统,进行多源数据采集。 2. 逆向分析目标网站及接口,绕过反爬机制,如验证码、动态加载、JS加密、IP封锁等,确保数据采集稳定性。 3. 针对大模型数据预处理要求,优化爬虫数据格式和质量,提升爬取的数据对训练和推理的适用性。 4. 结合大模型场景,自动化处理反爬机制变化,并提供灵活的技术解决方案。 5. 与大模型研发团队紧密合作,确保爬虫采集的数据能够有效支持模型训练与应用。 6. 跟进最新的反爬技术与反制策略,持续优化爬虫架构和性能。

更新于 2025-03-17
logo of quark
社招3年以上技术类-开发

1. 参与互联网网页、文档、图片、音视频等境内外内容数据的发现、采集及处理 2. 优化爬虫架构及平台能力,优化js渲染性能和效果,提升反爬对抗能力 3. 优化数据处理系统,完善数据标注等平台能力 4. 负责大模型训练语料、RAG索引等重要数据的交付

更新于 2025-07-30