logo of tcl

TCL数据采集工程师

社招全职3年以上研发技术类地点:上海状态:招聘

任职要求


1、	教育背景:计算机科学、人工智能、数学或相关领域的硕士学位。
2、	工作经验:至少3年相关工作经验,具有AIGC的数据收集、管理或注释经验。
3、	必备技能:(1)精通Python或类似脚本语言。
(2)熟悉网页抓取、API和数据转换。
(3)非常重视数据质量和细节。
(4)有注释工具经验者优先。
(5)熟练掌握英语和普通话(口语和书面)。
(6)在快节奏、模糊的环境中独立工作的能力。
(7)具有较强的沟通能力和团队合作能力
4、	加分技能:(1)具有合成数据或快速工程经验。
(2)语言学、心理学或人机交互(HCI)背景。
(3)对对话式AI或创意AI感兴趣。

工作职责


从公共、合成和人工来源获取和汇集数据集。
-自动化数据收集、清理和注释工作流程。
-审查和充实数据的质量和相关性。
-设置和管理注释工具和指南。
-维护数据集版本控制和文档编写。
-整合用户和产品的反馈,以改进数据。
- 与算法工程师、产品经理和其他团队合作。
包括英文材料
学历+
Python+
脚本+
相关职位

logo of kuaishou
社招3-5年D6256

1、遵循robots协议,采集互联网上允许搜索爬虫采集的公开非敏感信息,满足大模型、电商、本地等公司核心业务数据需求; 2、负责分布式采集系统的建设与迭代优化,负责数据调度、采集、数据结构化、持久化全链路核心流程迭代升级; 3、帮助团队攻克各种采集技术难关,提升系统的采集效果与效率。

更新于 2025-09-29
logo of xiaohongshu
社招3年以上数据引擎

爬虫架构师 1.负责大规模广域爬虫引擎的部署、开发、维护; 2.负责爬虫系统的设计与优化; 3.熟悉chromium内核,熟悉js,熟悉dom; 4.熟悉常见的爬虫引擎,具有3年以上相关工作经验。; 爬虫工程师 1.严格遵守robots协议,负责大批量数据爬取; 2.负责爬虫代码的日常开发与维护,保证稳定性; 3.负责互联网资源清洗和结构化,网页转码,网页聚合,信息抽取,网页分类; 4.熟悉常见的风控策略,和JS混淆和浏览器引擎,可以快速开发网站采集。

logo of kuaishou
校招J1014

1、遵循robots协议,采集互联网上允许搜索爬虫采集的公开非敏感信息,满足大模型、电商、本地等公司核心业务数据需求;  2、负责分布式采集系统的建设与迭代优化,负责数据调度、采集、数据结构化、持久化全链路核心流程迭代升级;  3、帮助团队攻克各种采集技术难关,提升系统的采集效果与效率。

更新于 2025-07-30
logo of ly
社招

1、本科及以上学历,3年及以上相关工作经验; 2、熟悉常用开源爬虫框架,如crapy/pypider/elenium,具备多线程开发思维,了解线程安全相关知识; 3、熟悉常用的信息抽取技术,熟练使用正则表达式,熟悉JS混淆.逆向分析.抓包.伪装证书等技能; 4、熟悉常见的反爬虫技术,熟悉代理使用,有一定的对抗能力; 5、好钻研相关技术,能够主动提出技术设想者加分。

更新于 2024-02-26