
KeepAI 评测产品经理(J12071)
任职要求
1、统招本科及以上学历,专业为体育科学、运动人体科学等相关专业; 2、具备1年以上AI产品评测经验,能设计严谨的A/B测试方案; 3、熟练使用Prompt工程验证模型表现,具备基础SQL/Python数据分析能力; 4、平台优先项:熟悉Dify/Coze/Autogen等Agent开发平台操作逻辑。 加分项: - 拥有以下其…
工作职责
1、构建覆盖运动指导场景的AI Agent评测框架,制定专业指标(如动作规范性判断准确率、训练计划科学性评分); 2、模型能力的持续验证与优化,设计运动领域测试用例(如训练方案、运动咨询/指导问答);主导多模态Agent(文本/语音/视觉)在真实运动场景的评测并输出评测报告; 3、行业技术前瞻研究,跟踪Agent平台(Dify/Coze等)新功能,探索运动垂类适配方案;研究LLM、知识图谱与运动生理学数据的融合应用。

1、设计AI产品评测体系 · 深入理解业务需求和AI应用场景,针对性的设计评测方法、指标和数据集; · 沉淀各类AI软硬件产品的标准化和个性化评测体系 2、产品能力分析 · 与评测团队紧密协作,根据产品能力和实际需求设计和迭代优化评测体系,并实际执行产品评测 · 结合评测结果对产品能力进行分析诊断,为产品迭代提供有价值信息 3、关注业界产品形态发展,持续迭代评测体系 · 持续跟踪全球AI大模型、Agent和应用产品的技术发展,关注评测体系变化 · 整合业界和头部厂商先进评测体系经验,转化为内部评测实践,持续迭代评测体系
1. Agent能力评测体系设计:围绕 OpenClaw、Claude Code 等主流 Agent 框架,设计并落地适配长程任务场景的评测体系,确保 Agent 在真实约束下的交付稳定性与可度量性。 2. 评测流程与资源建设:设计 Coding、数据分析等核心生产力场景的端到端评测流程,搭建自动化评测数据生产与自动化 Rubrics 生成的标准化 pipeline;同时建设具备强技术背景的专家标注资源池,确保 Case 评审、效果判定等关键环节的专业度与一致性。 3.数据闭环与模型策略驱动:将评测数据转化为模型迭代的策略输入,建立"评测→归因→策略建议→效果验证"的数据驱动闭环,推动 Agent 能力持续提升形成飞轮。 4.前沿框架跟踪与评测策略适配:持续跟踪 OpenClaw、Claude Code 及行业前沿 Agent 框架的能力演进与架构变化,及时调整评测策略与度量标准,确保评测体系与 Agent 技术范式同步迭代。
1、深度洞察 C 端用户需求,构建 AI 产品质量评测体系,科学制定评测指标与标准,确保评测项目高效执行,输出专业详尽的评测报告,精准捕捉并提炼用户体验痛点,持续推动 C 端产品用户体验升级。 2、主导大模型在 C 端产品落地的效果评估工作,针对文生文、多模态理解与生成等核心能力展开全面评测,深度分析不同大模型在多元用户需求场景下的性能表现,为大模型的精准落地提供坚实数据支撑。 3、聚焦 AI 产品垂类技能,对算法效果进行迭代评测,通过深度数据分析挖掘优化方向,协同算法团队推进算法优化,实现产品核心功能的持续迭代与性能提升。 4、构建自动化评测方案,紧跟模型能力发展趋势,积极探索全模态评测技术,推动评测体系的智能化、高效化升级,提升整体评测效能。