千问千问事业部-高级数据研发专家-大模型语料

社招全职3年以上技术类-开发2026-07-01地点：北京 | 杭州状态：招聘

扫码手机上打开

任职要求

1. 主导设计和落地过大规模AI语料数据处理平台或数据生产系统，具备从0到1或大规模演进语料数据体系的经验，能够从工程架构层面构建支撑语料数据全生命周期的系统能力；
2. 具备大规模数据处理经验，熟悉网页、文档、文本、图片及音视频等多模态语料数据处理技术，对语料清洗、去重、过滤、结构化、对齐及质量评估等关键流程有深入理解；
3. 熟悉分布式数据计算与存储技术，如 Ray、Spark、Flink、Paimon 等，具备大规模数据处理系统设计与性能优化经验，能够与AI Infra及基础数据平台团队协同推进能力落地；
4…

登录查看完整任职要求

微信扫码，1秒登录

工作职责

1. 负责语料数据处理工程架构的整体设计与演进，覆盖文本、图片、音视频等多模态语料的清洗、处理与交付，支撑千问app toC业务场景的高质量语料供给；
2. 负责语料数据处理体系的架构设计与能力建设，基于对模型训练需求与语料特性的理解，设计标准化的数据处理算子与Pipeline体系（如清洗、去重、过滤、结构化、对齐、质量评估等），与基础调度及AI Infra团队协同，实现大规模语料数据处理的效率提升与成本优化；
3. 构建语料数据管控、数据画像与数据资产管理能力，对语料数据的来源、结构、分布、质量、覆盖度及使用效果进行系统化刻画，实现语料数据的可管理、可理解、可追溯，为模型训练与业务优化提供数据洞察与决策支持；
4. 打造语料数据质量评估平台，支持多模态语料数据质量分析，沉淀高质量语料数据资产，并通过AI能力显著提升语料生产效率与质量；
5. 构建语料数据分析与效果归因能力，打通“语料数据—模型训练—业务效果”的反馈链路，通过数据分析识别关键数据问题与数据缺口，指导语料数据采集、处理与标注策略，形成持续优化的数据飞轮；
6. 规划语料方向的Agent应用落地，覆盖数据处理、问题排查、指标分析、效果归因等各环节，提升模型语料数据建设的效率与效果；
7. 作为工程架构负责人，统筹语料数据处理相关技术方向与系统演进，带领团队完成关键系统建设，并与算法、业务及AI基础平台团队协同，推动语料数据体系在各类AI场景中的落地。

📮 投递简历 ✨AI模拟面试

难度：

包括英文材料

大数据+

性能调优+

Ray+

Spark+

Flink+

数据治理+

还有更多 •••

登录查看完整学习资料

相关职位

千问事业部-高级数据研发专家-大模型方向

社招3年以上技术类-开发

1. 负责大模型数据研发方向，为LLM、VLM、ASR、TTS及omni model的训练供给优质语料数据，推动各业务场景提升模型训练效果； 2. 与算法团队协同、搭建各模态数据处理pipeline，利用业界先进技术对数据进行清洗、去重、打标、标注、圈选、打包，交付优质数据进行模型训练，提升整体交付效率和数据质量； 3. 与数据采集团队协同，推动前沿数据获取策略的研发与落地，探索合成数据技术，主动解决特定领域或模-态的数据稀缺与多样性挑战； 4. 构建各模态数据分类&质量体系及数据画像，对数据进行多维度、细粒度分析，基于模型训练效果反馈进行数据挖掘，指导数据收录优化方向，构建数据飞轮。

更新于 2026-04-06北京|杭州

千问C端事业群-大模型数据研发高级专家-北京/杭州

社招3年以上技术类-开发

更新于 2026-02-06北京|杭州

淘宝闪购-高级数据研发专家-上海

社招5年以上技术类-数据

1. 大数据平台架构设计与开发 - 负责构建、优化和维护企业级大数据平台，包括数据采集、存储、处理、分析及可视化系统； - 设计高可用、高并发、可扩展的大数据架构，支持海量数据的实时/离线处理与分析。 - 设计高质量的数据模型，确保模型规范易用 2. 数据处理与分析 - 基于阿里大数据开发规范，构建数据仓库和数据湖，开发离线和实时ETL任务。 - 利用统计分析/机器学习/深度学习算法挖掘数据洞察，支持运营和产品决策和行动 3. 问题排查与系统性能优化 - 及时诊断、定位、解决离线和实时等各类计算任务的问题； - 对长耗时计算任务进行性能优化 4. 技术研究与创新 - 善于技术钻研，跟踪大数据领域前沿技术，推动技术落地与应用； - 推动AI技术在数据研发域的效能提升和产品创新 5. 数据安全与合规 - 设计并实施数据安全策略，确保数据隐私与合规性。

更新于 2025-12-10上海

千问事业部-高级数据系统研发专家-用户数据方向

社招5年以上技术类-数据

1、负责千问C端事业群用户数据平台规划与团队管理，构建完整的用户数据资产体系，在合规基础上多手段持续提升用户画像和重点人群的覆盖与准确，完善用户标签体系，探索新的画像体系的构建，建立数据质量保障和迭代机制； 2、深度理解千问APP、智能体等业务场景与数据需求，主导数据平台架构设计，驱动提升数据采集与计算效率，为业务核心问题提供有效归因和增量洞察； 3、统筹跨部门协作，推动用户数据在千问APP、智能体、用户发展等多场景的应用落地，以业务价值驱动用户数据的迭代优化； 4、持续演进数据平台产品，加强数据服务能力，包括不限于画像人群平台、智能分析工具等，通过产品化方案降低数据使用成本、提升分析洞察效率。

更新于 2026-04-06北京|杭州|广州