千问千问C端事业群-大模型数据研发高级专家-北京/杭州

社招全职3年以上技术类-开发2026-02-06地点：北京 | 杭州状态：招聘

扫码手机上打开

任职要求

1. 主导过LLM、VLM、ASR或TTS大模型预训练及微调语料数据建设工作，有丰富的数据交付经验；
2. 精通大规模分布式数据处理技术（如spark/flink/ray等），拥有从0到1搭建全模态数据处理pipeline的丰富实战经验；
3. 深刻理解大模型训练数据的特性与需求…

登录查看完整任职要求

微信扫码，1秒登录

工作职责

1. 负责大模型数据研发方向，为LLM、VLM、ASR、TTS及omni model的训练供给优质语料数据，推动各业务场景提升模型训练效果；
2. 与算法团队协同、搭建各模态数据处理pipeline，利用业界先进技术对数据进行清洗、去重、打标、标注、圈选、打包，交付优质数据进行模型训练，提升整体交付效率和数据质量；
3. 与数据采集团队协同，推动前沿数据获取策略的研发与落地，探索合成数据技术，主动解决特定领域或模-态的数据稀缺与多样性挑战；
4. 构建各模态数据分类&质量体系及数据画像，对数据进行多维度、细粒度分析，基于模型训练效果反馈进行数据挖掘，指导数据收录优化方向，构建数据飞轮。

📮 投递简历 ✨AI模拟面试

难度：

包括英文材料

大模型+

语音识别+

语音合成+

还有更多 •••

登录查看完整学习资料

相关职位

千问事业部-高级数据研发专家-大模型方向

社招3年以上技术类-开发

1. 负责大模型数据研发方向，为LLM、VLM、ASR、TTS及omni model的训练供给优质语料数据，推动各业务场景提升模型训练效果； 2. 与算法团队协同、搭建各模态数据处理pipeline，利用业界先进技术对数据进行清洗、去重、打标、标注、圈选、打包，交付优质数据进行模型训练，提升整体交付效率和数据质量； 3. 与数据采集团队协同，推动前沿数据获取策略的研发与落地，探索合成数据技术，主动解决特定领域或模-态的数据稀缺与多样性挑战； 4. 构建各模态数据分类&质量体系及数据画像，对数据进行多维度、细粒度分析，基于模型训练效果反馈进行数据挖掘，指导数据收录优化方向，构建数据飞轮。

更新于 2026-04-06北京|杭州

千问事业部-高级数据研发专家-大模型语料

社招3年以上技术类-开发

1. 负责语料数据处理工程架构的整体设计与演进，覆盖文本、图片、音视频等多模态语料的清洗、处理与交付，支撑千问app toC业务场景的高质量语料供给； 2. 负责语料数据处理体系的架构设计与能力建设，基于对模型训练需求与语料特性的理解，设计标准化的数据处理算子与Pipeline体系（如清洗、去重、过滤、结构化、对齐、质量评估等），与基础调度及AI Infra团队协同，实现大规模语料数据处理的效率提升与成本优化； 3. 构建语料数据管控、数据画像与数据资产管理能力，对语料数据的来源、结构、分布、质量、覆盖度及使用效果进行系统化刻画，实现语料数据的可管理、可理解、可追溯，为模型训练与业务优化提供数据洞察与决策支持； 4. 打造语料数据质量评估平台，支持多模态语料数据质量分析，沉淀高质量语料数据资产，并通过AI能力显著提升语料生产效率与质量； 5. 构建语料数据分析与效果归因能力，打通“语料数据—模型训练—业务效果”的反馈链路，通过数据分析识别关键数据问题与数据缺口，指导语料数据采集、处理与标注策略，形成持续优化的数据飞轮； 6. 规划语料方向的Agent应用落地，覆盖数据处理、问题排查、指标分析、效果归因等各环节，提升模型语料数据建设的效率与效果； 7. 作为工程架构负责人，统筹语料数据处理相关技术方向与系统演进，带领团队完成关键系统建设，并与算法、业务及AI基础平台团队协同，推动语料数据体系在各类AI场景中的落地。

更新于 2026-07-01北京|杭州

大模型数据研发工程师

实习阿里巴巴2027

1.参与大模型训练数据体系的构建，协助设计高质量、大规模数据的采集、清洗、评估与迭代机制； 2.探索多模态（文本、图像、音频、视频等）数据的内容理解、质量建模与特征提取方法，支持数据驱动的大模型优化； 3.参与Prompt工程相关技术研发，包括结构化指令设计、自动化生成策略及效果验证框架的实现； 4.协助开发可扩展的数据处理工具链，结合分布式计算与AI技术，提升全模态数据生产效率与一致性； 5.与算法、工程及产品团队协作，将前沿数据方法落地到实际训练流程中，并持续跟踪效果反馈。

更新于 2026-05-19北京|杭州

数据技术及产品部-大模型数据研发专家-杭州

社招5年以上技术类-数据

1.主导EB级海量全模态（文本/图像/视频/音频3D等）AI数据处理平台的规划，负责高性能、可扩展的数据处理架构设计; 2. 负责AI数据资产体系构建与AI数据资产规划，推动数据、算法、工程及产品等多团队协作，实现AI全模态数据标准化、流程化及资产化，加速AI数据在基模和AI应用之间效能转化； 3. 主导核心数据处理算子（清洗、加工、转换、融合）的研发与工程化落地，并构建高效的流程编排与执行引擎，支持百亿级数据在异构卡型上快速自动化处理； 4. 负责全域EB级检索引擎的架构设计与实现，包括多模态检索、内容检索与RAG（检索增强生成）等，并持续进行性能与效果优化； 5. 关注并引领AI数据处理领域的新技术、新架构、新工具，积极推动平台技术升级和平台开放，推动团队在AI数据处理能力提升和内部技术分享。

更新于 2026-05-22杭州