智能互联数据技术及产品部-AI 应用评测专家-杭州/北京

社招全职3年以上2026-06-17地点：北京 | 杭州状态：招聘

扫码手机上打开

任职要求

1.丰富的AI产品评测或体验设计经验：具备2年以上C端AI产品（对话式大模型助手、智能搜索、内容生成工具等）的评测、体验分析或产品经理经验。拥有强烈的“用户视角”，能跳出纯算法指标，从真实交互场景（如追问、纠错、语气、边界case等）定义AI助手的好坏。
2.评测体系产品化落地能力：有将评测能力从“零散脚本/人工体验”推动落地为“标准化产品/平台”的实际经验，了解如何设计评测平台的业务流、数据流转…

登录查看完整任职要求

微信扫码，1秒登录

工作职责

1.构建C端AI助手（如千问、悟空、QoderWork）的产品评测体系：围绕对话式AI助手的核心体验，从真实用户场景出发，设计评测维度、构建高质量评测集与评分标准，确保评测结果能真实反映产品的市场竞争力与用户体感。
2.驱动评测体系的产品化与平台化：负责将评测所需要的场景用例、评测流程与结果洞察封装，线上维护评测结果、对比与可视化看板，降低产品与算法团队的评测门槛，支撑快速迭代。
3.Agent与工具调用评测环境搭建：针对AI助手中的搜索联网、插件调用与Agent规划能力，搭建端到端的仿真运行环境与MCP工具层，实现外部工具接口的标准化注册、调用链路追踪与结果校验，确保多步骤任务评测的可复现性。
4.评测Benchmark建设：接入并适配主流开源评测集，同时持续挖掘用户真实Bad Case，沉淀并构建符合国内C端用户习惯的专属业务评测数据集，完成数据解析与评分逻辑对齐。
5.跨团队协同与体验闭环：作为评测体验专家，与产品经理、算法研究团队紧密协作，将产品侧的体验诉求转化为可量化的工程评测方案，并通过评测数据反哺产品迭代方向，以打造最受欢迎的AI应用为目标。

📮 投递简历 ✨AI模拟面试

难度：

包括英文材料

大模型+

还有更多 •••

登录查看完整学习资料