logo of keep

KeepAI 评测产品经理(J12071)

社招全职1年以上地点:北京状态:招聘

任职要求


1、统招本科及以上学历,专业为体育科学、运动人体科学等相关专业;
2、具备1年以上AI产品评测经验,能设计严谨的A/B测试方案;
3、熟练使用Prompt工程验证模型表现,具备基础SQL/Python数据分析能力;
4、平台优先项:熟悉Dify/Coze/Autogen等Agent开发平台操作逻辑。

加分项:
- 拥有以下其…
登录查看完整任职要求
微信扫码,1秒登录

工作职责


1、构建覆盖运动指导场景的AI Agent评测框架,制定专业指标(如动作规范性判断准确率、训练计划科学性评分);
2、模型能力的持续验证与优化,设计运动领域测试用例(如训练方案、运动咨询/指导问答);主导多模态Agent(文本/语音/视觉)在真实运动场景的评测并输出评测报告;
3、行业技术前瞻研究,跟踪Agent平台(Dify/Coze等)新功能,探索运动垂类适配方案;研究LLM、知识图谱与运动生理学数据的融合应用。
包括英文材料
学历+
Prompt+
SQL+
Python+
还有更多 •••
相关职位

logo of aligenie
社招5年以上综合类-公司事务

1、设计AI产品评测体系 · 深入理解业务需求和AI应用场景,针对性的设计评测方法、指标和数据集; · 沉淀各类AI软硬件产品的标准化和个性化评测体系 2、产品能力分析 · 与评测团队紧密协作,根据产品能力和实际需求设计和迭代优化评测体系,并实际执行产品评测 · 结合评测结果对产品能力进行分析诊断,为产品迭代提供有价值信息 3、关注业界产品形态发展,持续迭代评测体系 · 持续跟踪全球AI大模型、Agent和应用产品的技术发展,关注评测体系变化 · 整合业界和头部厂商先进评测体系经验,转化为内部评测实践,持续迭代评测体系

更新于 2026-03-29杭州
logo of meituan
社招3年以上核心本地商业-基

1. Agent能力评测体系设计:围绕 OpenClaw、Claude Code 等主流 Agent 框架,设计并落地适配长程任务场景的评测体系,确保 Agent 在真实约束下的交付稳定性与可度量性。 2. 评测流程与资源建设:设计 Coding、数据分析等核心生产力场景的端到端评测流程,搭建自动化评测数据生产与自动化 Rubrics 生成的标准化 pipeline;同时建设具备强技术背景的专家标注资源池,确保 Case 评审、效果判定等关键环节的专业度与一致性。 3.数据闭环与模型策略驱动:将评测数据转化为模型迭代的策略输入,建立"评测→归因→策略建议→效果验证"的数据驱动闭环,推动 Agent 能力持续提升形成飞轮。 4.前沿框架跟踪与评测策略适配:持续跟踪 OpenClaw、Claude Code 及行业前沿 Agent 框架的能力演进与架构变化,及时调整评测策略与度量标准,确保评测体系与 Agent 技术范式同步迭代。

更新于 2026-03-23北京|上海
logo of transsion
社招5年以上

1、深度洞察 C 端用户需求,构建 AI 产品质量评测体系,科学制定评测指标与标准,确保评测项目高效执行,输出专业详尽的评测报告,精准捕捉并提炼用户体验痛点,持续推动 C 端产品用户体验升级。 2、主导大模型在 C 端产品落地的效果评估工作,针对文生文、多模态理解与生成等核心能力展开全面评测,深度分析不同大模型在多元用户需求场景下的性能表现,为大模型的精准落地提供坚实数据支撑。 3、聚焦 AI 产品垂类技能,对算法效果进行迭代评测,通过深度数据分析挖掘优化方向,协同算法团队推进算法优化,实现产品核心功能的持续迭代与性能提升。 4、构建自动化评测方案,紧跟模型能力发展趋势,积极探索全模态评测技术,推动评测体系的智能化、高效化升级,提升整体评测效能。

更新于 2025-06-03深圳
logo of bytedance
社招A148949

1、负责大模型评测平台的全生命周期的产品规划、设计与推动落地,平台为大模型基座及抖音内各场景效果的评测服务,平台能力包括标准的管理、数据标注/生成、自动投放、智能化评测能力等; 2、深入理解大模型预训练语言模型,与评测团队一起建设科学、公允、客观的大模型评测体系; 3、判断行业发展趋势,结合最前沿的技术和产品形态,打造标杆性的大模型评测产品; 4、探索创新型算法评测方法,包括大模型的自动化标注,对抗模型等能力。

更新于 2024-01-31北京