logo of jd

京东大模型数据采集高级工程师

社招全职软件开发岗状态:招聘

任职要求


任职要求
1.本科及以上,计算机相关专业,海量数据采集 / 爬虫 / 数据工程经验,有 LLM 数据交付经验优先。
2.精通 Python/Go/Java 任一,熟悉分布式爬虫、反爬与数据治理。
3. 掌握 Spark/Kafka/Airflow 等技术,具备云…
登录查看完整任职要求
微信扫码,1秒登录

工作职责


大数据工程部定位于为基座模型及业务提供高质量数据与 AI 化解决方案。我们以数据为核心,通过数据工程与模型算法相结合的方式,加速大模型在数据、实验与评测环节的迭代效率,持续沉淀高价值数据资产,支撑模型与应用的演进。在具体实践中,我们面向多语言、多模态大模型训练,开展数据清洗、去重、打标等关键算法与方法建设,并系统性构建预训练与后训练数据管道,从质量、覆盖度与多样性等维度提升数据整体水平,持续助力模型效果提升。同时,我们积极探索合成数据、数据规模扩展规律、多模态数据对齐等前沿数据方向,将数据侧的创新转化为可验证、可复用的模型收益。

岗位职责
1.设计分布式爬虫与调度策略,支撑万亿级 Token 数据供给,开发高可用采集工具,突破反爬,对接多源数据,保障日均 TB 级采集能力。
2.参与搭建自动化清洗 / 去重 / 脱敏流水线,保障数据质量与合规性。维护采集 - 存储 - 处理全链路,监控 SLA,支持云原生与私有化部署。
3.优化数据策略,提升数据性价比与模型对齐度。
包括英文材料
相关职位

logo of honor
校招研发类

(负责以下1-2项工作): 1、设计VLA模型架构,利用具身数据和VLM预训练/后训练,实现数据/模型的迭代和训练策略优化; 2、构建高质量互联网多模态数据及模型训练,提升VLM对物理世界的理解和具身推理能力; 3、负责遥操/动捕的真机数据构建和增强,综合利用具身数据金字塔(真机/合成/互联网数据),在机器人具身模型算法(模仿学习/强化学习)上验证有效性; 4、基于Isaac sim/MuJoCo等仿真平台构建Real2Sim2Real数据合成管线; 5、力/触觉和灵巧手数据采集和生成,并在灵巧手操作模型中验证闭环; 6、动作捕捉和重定向:人形动作捕捉,机器人重定向定向,动作模仿。

更新于 2025-05-07北京|上海|深圳
logo of tencent
社招3年以上CSIG技术

1.负责腾讯云公网产品控制器和数据面的方案设计及开发工作; 2.负责AI大模型数据采集、模型部署、访问加速等方面涌现的新场景新能力的设计及开发工作; 3.负责AI技术与网络产品(前端/后端)的融合设计与开发,构建智能化的网络运营、运维、交付、排障、及售后系统。

更新于 2025-12-12深圳
logo of aliyun
社招3年以上云智能集团

独立负责复杂业务模块的技术方案设计、核心功能实现与系统优化,在保障系统高可用、高性能的同时,持续推动技术架构演进。需要具备扎实的工程能力、良好的问题解决能力和技术前瞻性,并能有效协作推动项目落地。具体包括: 1、技术方案设计 · 收集、识别、分析客户需求,并确定技术方案的目标、范围和交付成果; · 基于需求分析,进行技术可行性分析和方案评审,选择合适的技术选型、功能设计、技术架构、数据架构和开发流程等。 2、技术实现 · 基于技术方案的拆解,按照任务目标和产出规范,完成任务/子任务的设计、编码开发和系统功能实现; · 负责核心功能的架构与代码模板的编写,开发与维护系统公用核心模块,技术架构重构、优化等; · 负责数据相关组件的研发与优化,包括数据采集、处理、存储及分析等环节的设计与实现,确保数据链路的可靠性和效率。 3、稳定性和性能优化 · 制定稳定性策略,寻找并解决产品系统中的潜在风险和瓶颈,覆盖线上疑难杂症问题,确保系统的安全可靠; · 运用产品优化技术和方法,进行性能优化,提高产品稳定性和性能。 4、技术预研 · 跟踪和了解新产品技术和趋势,根据业务需要提供技术支持和建议。

更新于 2025-09-24北京|杭州
logo of meituan
社招3年以上核心本地商业-基

1、参与和负责基础数据服务相关SDK的研发,诸如公司级数据采集服务、端智能用户画像与数据特征模型等服务建设工作; 2、参与基础数据服务架构设计,优化服务高稳易用性建设工作,保障服务质量与效率研发; 3、探索和驱动数据价值在业务领域的落地,同时挖掘更多数据场景服务在业务的价值输出;

更新于 2025-08-25北京