智能互联千问事业部-大模型数据专家-LLM方向

社招全职3年以上技术类-开发2026-04-06地点：北京 | 杭州状态：招聘

扫码手机上打开

任职要求

1、编程基本功扎实、熟悉常用数据结构和算法，有大规模、分布式数据处理的经验；
2、有面向大模型训练、或AI搜索/chat等创新业务的数据开发经验；
3、熟悉网页、文档的数据采集和处理技术，并能应用AI能力来不断优化数据效果；
4、具…

登录查看完整任职要求

微信扫码，1秒登录

工作职责

1、参与境内外互联网网页、文档、代码等文本数据的发现、采集、处理及标注工作，完善相应平台和架构能力；
2、为文本大模型训练供给语料数据，为AI toC应用供给领域优质内容数据；
3、评估并提升训练数据的质量、多样性及标注准确性；
4、通过AI能力来赋能数据建设，提升数据效果及生产效率；
5、与模型及业务研发团队紧密协作，根据训练效果和业务指标反馈持续迭代数据策略。

📮 投递简历 ✨AI模拟面试

难度：

包括英文材料

数据结构+

算法+

还有更多 •••

登录查看完整学习资料

相关职位

千问事业部-大模型数据专家-智能语音方向

社招3年以上技术类-开发

1、参与设计并实现高性能、可扩展、分布式大数据处理平台，通过数据驱动模型训练，支撑夸克智能语音相关业务算法生产与高效迭代； 2、与算法工程师密切配合，理解深度学习模型研发流程，负责/参与前沿模型研究中数据解决方案的设计、开发和维护； 3、通过AI能力来赋能数据建设，持续提升平台数据生产效率、易用性、降低算法使用成本

更新于 2026-04-06北京|杭州

千问事业部-大模型数据专家-图文多模方向

社招3年以上技术类-开发

1. 开发并维护可扩展的数据基础设施，支持大规模图像和视频数据的采集、存储与管理； 2. 应用并部署机器学习模型用于数据清洗、预处理与格式标准化； 3. 实现可扩展且高效的工具，用于可视化、聚类以及深度理解数据； 4. 优化和并行化数据处理流程，以高效处理上亿级别的数据集； 5. 评估并提升训练数据的质量、多样性及标注准确性（包括但不限于caption生成）； 6. 与模型研发团队紧密协作，根据训练效果和模型反馈持续迭代数据策略。

更新于 2026-04-06北京|杭州

千问事业部-语音大模型数据专家-杭州/上海

社招2年以上

1、负责语音大模型数据构建，设计各技术方案下各阶段数据方案与策略，建设专业、敏捷的流程&标准，管理高效高质的数据生产Pipeline，有效提升技术预研/业务落地效果； 2、负责端到端语音大模型评测体系建设，设计模型优化敏感、业务场景适配的评测方案与流程，建设并管理科学、敏捷的评测Pipeline，为模型效果提升提供有价值的优化方向与反馈； 3、推动跨团队合作，理解上游需求并统筹下游人力，负责项目资源的协调与组织，与算法/产品进行良好沟通，确保项目团队协同工作，推动语音方案在业务场景的落地。

更新于 2026-06-18杭州|上海

千问事业部-大模型语料数据研发专家-杭州/北京

社招3年以上技术类-开发

1. 负责语料数据工程架构建设，覆盖文本、图片、音视频等多模语料的清洗、处理与交付，支撑千问app toC业务场景的高质量语料供给； 2. 基于模型训练要求和各模态语料特性，设计标准化的数据处理算子和pipeline，与基础调度及AI Infra团队协同，实现大规模语料数据处理的效率提升和成本优化； 3. 构建语料数据管控、数据画像与数据资产管理能力，对语料数据的来源、结构、分布、质量、覆盖度及使用效果进行系统化刻画，实现可管理、可理解、可追溯，为模型训练与业务优化提供数据洞察与决策支持； 4. 打造语料数据质量评估平台，支持多模态语料数据质量分析，沉淀高质量数据资产，并通过AI能力提升语料生产效率与质量； 5. 构建语料数据分析与效果归因能力，打通“语料数据—模型训练—业务效果”的反馈链路，通过数据分析识别关键问题与数据缺口，指导采集、合成、处理与标注策略，形成持续优化的数据飞轮。 6. 构建数据Agent能力，覆盖数据处理、问题排查、指标分析、效果归因等各环节，提升模型语料数据建设的效率与效果。

更新于 2026-07-01北京|杭州