KeepAI 评测产品经理(J12071)

社招全职1年以上2025-08-04地点：北京状态：招聘

扫码手机上打开

任职要求

1、统招本科及以上学历，专业为体育科学、运动人体科学等相关专业；
2、具备1年以上AI产品评测经验，能设计严谨的A/B测试方案；
3、熟练使用Prompt工程验证模型表现，具备基础SQL/Python数据分析能力；
4、平台优先项：熟悉Dify/Coze/Autogen等Agent开发平台操作逻辑。

加分项：
- 拥有以下其…

登录查看完整任职要求

微信扫码，1秒登录

工作职责

1、构建覆盖运动指导场景的AI Agent评测框架，制定专业指标（如动作规范性判断准确率、训练计划科学性评分）；
2、模型能力的持续验证与优化，设计运动领域测试用例（如训练方案、运动咨询/指导问答）；主导多模态Agent（文本/语音/视觉）在真实运动场景的评测并输出评测报告；
3、行业技术前瞻研究，跟踪Agent平台（Dify/Coze等）新功能，探索运动垂类适配方案；研究LLM、知识图谱与运动生理学数据的融合应用。

📮 投递简历 ✨AI模拟面试

难度：

包括英文材料

学历+

Prompt+

SQL+

Python+

还有更多 •••

登录查看完整学习资料

相关职位

阿里控股-AI评测专家-AI产品

社招5年以上综合类-公司事务

1、设计AI产品评测体系 · 深入理解业务需求和AI应用场景，针对性的设计评测方法、指标和数据集； · 沉淀各类AI软硬件产品的标准化和个性化评测体系 2、产品能力分析 · 与评测团队紧密协作，根据产品能力和实际需求设计和迭代优化评测体系，并实际执行产品评测 · 结合评测结果对产品能力进行分析诊断，为产品迭代提供有价值信息 3、关注业界产品形态发展，持续迭代评测体系 · 持续跟踪全球AI大模型、Agent和应用产品的技术发展，关注评测体系变化 · 整合业界和头部厂商先进评测体系经验，转化为内部评测实践，持续迭代评测体系

更新于 2026-03-29杭州

AI生产力评测产品经理（欢迎算法/工程转型）

社招3年以上核心本地商业-基

1. Agent能力评测体系设计：围绕 OpenClaw、Claude Code 等主流 Agent 框架，设计并落地适配长程任务场景的评测体系，确保 Agent 在真实约束下的交付稳定性与可度量性。 2. 评测流程与资源建设：设计 Coding、数据分析等核心生产力场景的端到端评测流程，搭建自动化评测数据生产与自动化 Rubrics 生成的标准化 pipeline；同时建设具备强技术背景的专家标注资源池，确保 Case 评审、效果判定等关键环节的专业度与一致性。 3.数据闭环与模型策略驱动：将评测数据转化为模型迭代的策略输入，建立"评测→归因→策略建议→效果验证"的数据驱动闭环，推动 Agent 能力持续提升形成飞轮。 4.前沿框架跟踪与评测策略适配：持续跟踪 OpenClaw、Claude Code 及行业前沿 Agent 框架的能力演进与架构变化，及时调整评测策略与度量标准，确保评测体系与 Agent 技术范式同步迭代。

更新于 2026-03-23北京|上海

大模型评测产品经理(J17900)

社招5年以上

1、深度洞察 C 端用户需求，构建 AI 产品质量评测体系，科学制定评测指标与标准，确保评测项目高效执行，输出专业详尽的评测报告，精准捕捉并提炼用户体验痛点，持续推动 C 端产品用户体验升级。 2、主导大模型在 C 端产品落地的效果评估工作，针对文生文、多模态理解与生成等核心能力展开全面评测，深度分析不同大模型在多元用户需求场景下的性能表现，为大模型的精准落地提供坚实数据支撑。 3、聚焦 AI 产品垂类技能，对算法效果进行迭代评测，通过深度数据分析挖掘优化方向，协同算法团队推进算法优化，实现产品核心功能的持续迭代与性能提升。 4、构建自动化评测方案，紧跟模型能力发展趋势，积极探索全模态评测技术，推动评测体系的智能化、高效化升级，提升整体评测效能。

更新于 2025-06-03深圳

大模型评测产品经理

社招A148949

1、负责大模型评测平台的全生命周期的产品规划、设计与推动落地，平台为大模型基座及抖音内各场景效果的评测服务，平台能力包括标准的管理、数据标注/生成、自动投放、智能化评测能力等； 2、深入理解大模型预训练语言模型，与评测团队一起建设科学、公允、客观的大模型评测体系； 3、判断行业发展趋势，结合最前沿的技术和产品形态，打造标杆性的大模型评测产品； 4、探索创新型算法评测方法，包括大模型的自动化标注，对抗模型等能力。

更新于 2024-01-31北京