智能互联数据技术及产品部-AI 语音领域数据架构师-杭州/北京

社招全职5年以上技术类-数据2026-04-03地点：北京 | 杭州状态：招聘

扫码手机上打开

任职要求

1.  计算机科学、人工智能等相关专业，或语音学、语义学等交叉学科背景，硕士及以上学历优先。
2.  5年以上AI数据相关经验，至少2年大模型（LLM/VLM）数据工作经验；有从0到1搭建数据团队或平台的经历；懂模型、懂数据、有产品 sense ，具备 AI 协同能力。
3.  技术深度：深入大模型原理；精通数据清洗与质量评估方法…

登录查看完整任职要求

微信扫码，1秒登录

工作职责

负责搭建并管理面向语音领域大模型的全链路数据体系，包括数据评测、加工、合成与标注。作为模型算法团队与数据采集团队的核心桥梁，确保高质量、多样化数据供给。主要包括以下：

1.  评测体系构建：主导音频领域大模型的评测标准制定，建立涵盖理解、生成、对齐、安全四大维度的评估框架，设计人工评测与自动评测相结合的混合评估方案，搭建评测数据集、生产管线，建立与SOTA模型的对比评测机制，输出专业评测报告。
2.  数据链路架构：构建大规模语音训练数据的全生命周期处理链路：采集→清洗→去重→质量筛选→格式标准化→安全过滤，搭建数据质量监控体系，建立数据价值评估模型，确保高信息密度数据的持续供给；
3.  标注规范与质量体系：制定细粒度多模态标注规范；建立分层质检机制确保标注的质量；设计标注人员培训体系与能力认证标准，搭建领域专家标注团队。

📮 投递简历 ✨AI模拟面试

难度：

包括英文材料

学历+

大模型+

还有更多 •••

登录查看完整学习资料

相关职位

数据技术及产品部-AI 应用评测专家-杭州/北京

社招3年以上

1.构建C端AI助手（如千问、悟空、QoderWork）的产品评测体系：围绕对话式AI助手的核心体验，从真实用户场景出发，设计评测维度、构建高质量评测集与评分标准，确保评测结果能真实反映产品的市场竞争力与用户体感。 2.驱动评测体系的产品化与平台化：负责将评测所需要的场景用例、评测流程与结果洞察封装，线上维护评测结果、对比与可视化看板，降低产品与算法团队的评测门槛，支撑快速迭代。 3.Agent与工具调用评测环境搭建：针对AI助手中的搜索联网、插件调用与Agent规划能力，搭建端到端的仿真运行环境与MCP工具层，实现外部工具接口的标准化注册、调用链路追踪与结果校验，确保多步骤任务评测的可复现性。 4.评测Benchmark建设：接入并适配主流开源评测集，同时持续挖掘用户真实Bad Case，沉淀并构建符合国内C端用户习惯的专属业务评测数据集，完成数据解析与评分逻辑对齐。 5.跨团队协同与体验闭环：作为评测体验专家，与产品经理、算法研究团队紧密协作，将产品侧的体验诉求转化为可量化的工程评测方案，并通过评测数据反哺产品迭代方向，以打造最受欢迎的AI应用为目标。

更新于 2026-06-17北京|杭州

数据技术及产品部-AI数据处理工程师-数据

社招1年以上技术类-数据

1、参与集团级AI数据引擎：负责多模态数据（文本、音频、图像、视频）的采集、清洗、处理、治理与资产化管理，打造可复用、可观测、可解释的 EB 级数据体系，支撑大模型训练与推理的高质量数据供给； 2、多模态数据智能化处理：主导音频/视频/图像等模态的自动理解、标签体系构建、语义特征抽取、质量建模与自动化治理；设计并训练分类、识别、预测等多模态模型； 3、AI Native数据Pipeline建设：使用LLM+Agent框架构建智能数据Pipeline，实现数据分渠道过滤、去重、质量诊断、调度编排和异常告警等环节的自动化，显著降低人力成本； 4、数据&模型闭环迭代：基于评测反馈的短板，设计对应的专项数据集，并在训练过程中构建可观测指标，量化数据对模型能力提升的贡献，动态更新数据集，实现数据 → 模型 → 评测 → 数据的循环优化； 5、数据资产治理：负责元数据、数据血缘、分类分级、质量评分、数据标准、价值评估等治理框架的设计与落地，推动数据资产的可视化与可运营化，让数据可管理、可复用、可增长； 6、与模型团队协作，参与训练数据构造、数据反哺、短板挖掘和评测闭环建设，通过数据驱动模型能力提升，成为AI模型训练的数据核心驱动力；

更新于 2026-06-18杭州

数据技术及产品部-AI数据工程-杭州

社招2年以上技术类-数据

1、参与集团级AI数据引擎：负责多模态数据（文本、音频、图像、视频）的采集、清洗、处理、治理与资产化管理，打造可复用、可观测、可解释的 EB 级数据体系，支撑大模型训练与推理的高质量数据供给； 2、多模态数据智能化处理：主导音频/视频/图像等模态的自动理解、标签体系构建、语义特征抽取、质量建模与自动化治理；设计并训练分类、识别、预测等多模态模型； 3、AI Native数据Pipeline建设：使用LLM+Agent框架构建智能数据Pipeline，实现数据分渠道过滤、去重、质量诊断、调度编排和异常告警等环节的自动化，显著降低人力成本； 4、数据&模型闭环迭代：基于评测反馈的短板，设计对应的专项数据集，并在训练过程中构建可观测指标，量化数据对模型能力提升的贡献，动态更新数据集，实现数据 → 模型 → 评测 → 数据的循环优化； 5、数据资产治理：负责元数据、数据血缘、分类分级、质量评分、数据标准、价值评估等治理框架的设计与落地，推动数据资产的可视化与可运营化，让数据可管理、可复用、可增长； 6、算法与工程一体化协作：与模型团队协作，参与训练数据构造、数据反哺、短板挖掘和评测闭环建设，通过数据驱动模型能力提升，成为AI模型训练的数据核心驱动力；

更新于 2026-06-16杭州

数据技术及产品部-AI 应用评测专家-杭州/北京

社招3年以上

更新于 2026-06-17北京|杭州