智能互联千问事业部-语料数据处理工程架构负责人-北京/杭州

社招全职3年以上技术类-开发2026-04-07地点：北京 | 杭州状态：招聘

扫码手机上打开

任职要求

1. 主导设计和落地过大规模AI语料数据处理平台或数据生产系统，具备从0到1或大规模演进语料数据体系的经验，能够从工程架构层面构建支撑语料数据全生命周期的系统能力；
2. 具备大规模数据处理经验，熟悉网页、文档、文本、图片及音视频等多模态语料数据处理技术，对语料清洗、去重、过滤、结构化、对齐及质量评估等关键流程有深入理解；
3. 熟悉分布式数据计算与存储技术，如 Ray、Spark、Flink、Paimon 等，具备大规模数据处…

登录查看完整任职要求

微信扫码，1秒登录

工作职责

1. 负责语料数据处理工程架构的整体设计与演进，覆盖文本、图片、音视频等多模态语料的清洗、处理、与交付，支撑千问app toC业务场景的高质量语料供给；
2. 负责语料数据处理体系的架构设计与能力建设，基于对模型训练需求与语料特性的理解，设计标准化的数据处理算子与Pipeline体系（如清洗、去重、过滤、结构化、对齐、质量评估等），与基础调度及AI Infra团队协同，实现大规模语料数据处理的效率提升与成本优化；
3. 构建语料数据管控、数据画像与数据资产管理能力，对语料数据的来源、结构、分布、质量、覆盖度及使用效果进行系统化刻画，实现语料数据的可管理、可理解、可追溯，为模型训练与业务优化提供数据洞察与决策支持；
4. 打造语料数据质量评估平台，支持多模态语料数据质量分析，沉淀高质量语料数据资产，并通过AI能力显著提升语料生产效率与质量；
5. 构建语料数据分析与效果归因能力，打通“语料数据—模型训练—业务效果”的反馈链路，通过数据分析识别关键数据问题与数据缺口，指导语料数据采集、处理与标注策略，形成持续优化的数据飞轮；
6. 作为工程架构负责人，统筹语料数据处理相关技术方向与系统演进，带领团队完成关键系统建设，并与算法、业务及AI基础平台团队协同，推动语料数据体系在各类AI场景中的落地。

📮 投递简历 ✨AI模拟面试

难度：

包括英文材料

Ray+

Spark+

Flink+

还有更多 •••

登录查看完整学习资料

相关职位

千问事业部-语料数据处理工程架构负责人-北京/杭州

社招3年以上技术类-开发

1. 负责语料数据处理工程架构的整体设计与演进，覆盖文本、图片、音视频等多模态语料的清洗、处理、与交付，支撑千问app toC业务场景的高质量语料供给； 2. 负责语料数据处理体系的架构设计与能力建设，基于对模型训练需求与语料特性的理解，设计标准化的数据处理算子与Pipeline体系（如清洗、去重、过滤、结构化、对齐、质量评估等），与基础调度及AI Infra团队协同，实现大规模语料数据处理的效率提升与成本优化； 3. 构建语料数据管控、数据画像与数据资产管理能力，对语料数据的来源、结构、分布、质量、覆盖度及使用效果进行系统化刻画，实现语料数据的可管理、可理解、可追溯，为模型训练与业务优化提供数据洞察与决策支持； 4. 打造语料数据质量评估平台，支持多模态语料数据质量分析，沉淀高质量语料数据资产，并通过AI能力显著提升语料生产效率与质量； 5. 构建语料数据分析与效果归因能力，打通“语料数据—模型训练—业务效果”的反馈链路，通过数据分析识别关键数据问题与数据缺口，指导语料数据采集、处理与标注策略，形成持续优化的数据飞轮； 6. 作为工程架构负责人，统筹语料数据处理相关技术方向与系统演进，带领团队完成关键系统建设，并与算法、业务及AI基础平台团队协同，推动语料数据体系在各类AI场景中的落地。

更新于 2026-04-07北京|杭州

千问事业部-高级数据研发专家-大模型方向

社招3年以上技术类-开发

1. 负责大模型数据研发方向，为LLM、VLM、ASR、TTS及omni model的训练供给优质语料数据，推动各业务场景提升模型训练效果； 2. 与算法团队协同、搭建各模态数据处理pipeline，利用业界先进技术对数据进行清洗、去重、打标、标注、圈选、打包，交付优质数据进行模型训练，提升整体交付效率和数据质量； 3. 与数据采集团队协同，推动前沿数据获取策略的研发与落地，探索合成数据技术，主动解决特定领域或模-态的数据稀缺与多样性挑战； 4. 构建各模态数据分类&质量体系及数据画像，对数据进行多维度、细粒度分析，基于模型训练效果反馈进行数据挖掘，指导数据收录优化方向，构建数据飞轮。

更新于 2026-04-06北京|杭州

千问事业部-大模型数据专家-LLM方向

社招3年以上技术类-开发

1、参与境内外互联网网页、文档、代码等文本数据的发现、采集、处理及标注工作，完善相应平台和架构能力； 2、为文本大模型训练供给语料数据，为AI toC应用供给领域优质内容数据； 3、评估并提升训练数据的质量、多样性及标注准确性； 4、通过AI能力来赋能数据建设，提升数据效果及生产效率； 5、与模型及业务研发团队紧密协作，根据训练效果和业务指标反馈持续迭代数据策略。

更新于 2026-04-06北京|杭州

千问事业部-高级应用算法工程师-北京/广州

社招3年以上技术类-算法

1、针对具体任务场景（如语音识别、机器翻译、图像理解、文本生成等），开展深度学习模型的算法设计与创新，探索新型神经网络架构（如Transformer、MoE、扩散模型等），提升模型在复杂环境下的准确性、鲁棒性与泛化能力。负责端到端建模优化，结合上下文理解、对话状态追踪或多模态融合技术，增强系统在连续交互场景中的语义理解与响应能力。构建高质量训练数据体系，设计自动化语料清洗、标注与增强方案，覆盖多语言、多方言、噪声或小样本等挑战性场景，支撑模型持续迭代。 2、参与大规模预训练模型（LLM、VL模型等）的研发与微调，包括指令微调、对齐优化、提示工程及推理加速，提升模型在下游任务中的表现。探索大模型在跨模态理解（图文、音视频）、实时生成、知识推理等场景的应用路径，推动AIGC、智能摘要、自动字幕、翻译等业务的技术升级。研发高效微调技术（LoRA、Adapter等）与模型服务架构，实现大模型在资源受限环境下的灵活部署。 3、推动模型轻量化与推理加速，应用模型压缩、量化、蒸馏、剪枝等技术，提升模型在移动端、边缘设备或云端的运行效率。协同工程团队完成算法模块的高性能集成，优化分布式训练与推理框架，保障系统低时延、高并发与稳定性。支持多平台部署（移动端、PC端、Web端、云服务），参与全链路性能调优与监控体系建设。 4、跟踪人工智能领域最新研究进展（CV/NLP/ASR/TTS/MT等），结合业务需求进行技术预研与原型验证。与产品、数据、工程团队紧密协作，深入理解用户场景，推动AI能力在实际产品中的创新应用。

更新于 2026-04-08广州|北京