
智能互联数据技术及产品部-AI 应用评测专家-杭州/北京
社招全职3年以上地点:北京 | 杭州状态:招聘
任职要求
1.丰富的AI产品评测或体验设计经验:具备2年以上C端AI产品(对话式大模型助手、智能搜索、内容生成工具等)的评测、体验分析或产品经理经验。拥有强烈的“用户视角”,能跳出纯算法指标,从真实交互场景(如追问、纠错、语气、边界case等)定义AI助手的好坏。
2.评测体系产品化落地能力:有将评测能力从“零散脚本/人工体验”推动落地为“标准化产品/平台”的实际经验,了解如何设计评测平台的业务流、数据流转…登录查看完整任职要求
微信扫码,1秒登录
工作职责
1.构建C端AI助手(如千问、悟空、QoderWork)的产品评测体系:围绕对话式AI助手的核心体验,从真实用户场景出发,设计评测维度、构建高质量评测集与评分标准,确保评测结果能真实反映产品的市场竞争力与用户体感。 2.驱动评测体系的产品化与平台化:负责将评测所需要的场景用例、评测流程与结果洞察封装,线上维护评测结果、对比与可视化看板,降低产品与算法团队的评测门槛,支撑快速迭代。 3.Agent与工具调用评测环境搭建:针对AI助手中的搜索联网、插件调用与Agent规划能力,搭建端到端的仿真运行环境与MCP工具层,实现外部工具接口的标准化注册、调用链路追踪与结果校验,确保多步骤任务评测的可复现性。 4.评测Benchmark建设:接入并适配主流开源评测集,同时持续挖掘用户真实Bad Case,沉淀并构建符合国内C端用户习惯的专属业务评测数据集,完成数据解析与评分逻辑对齐。 5.跨团队协同与体验闭环:作为评测体验专家,与产品经理、算法研究团队紧密协作,将产品侧的体验诉求转化为可量化的工程评测方案,并通过评测数据反哺产品迭代方向,以打造最受欢迎的AI应用为目标。
包括英文材料
大模型+
https://www.youtube.com/watch?v=xZDB1naRUlk
You will build projects with LLMs that will enable you to create dynamic interfaces, interact with vast amounts of text data, and even empower LLMs with the capability to browse the internet for research papers.
https://www.youtube.com/watch?v=zjkBMFhNj_g
还有更多 •••