
商汤AI agent产品评测实习生
任职要求
1. 本科或研究生在读,计算机、数据分析相关专业优先。
2. 有严密的逻辑思维能力,出…工作职责
1. 充分理解用户在记录、记账、财务管理上的需求痛点,进行Agent效果测评与Benchmark构建。 2. 监控AI功能的用户使用情况,针对用户修改和bad case进行归因分析,通过数据挖掘优化方向。 3. 协助PM进行用户深度访谈,整理用户原始诉求,将其转化为AI Agent的功能点或改进建议。
1.参与AI Agent的功能评测、用户体验测试以及多场景测试,帮助团队识别AI Agent在不同业务场景中的表现 2.协助制定评测标准、设计和执行评测方案、收集和分析评测数据,并撰写评测报告提供有价值的反馈和建议 3.协助评测团队完成日常工作流程的优化和工具的使用,提升评测效率 4.跟踪和研究行业内先进的大语言模型技术和评测方法,为团队提供前沿的知识和见解
1、结合小爱AI业务规划,理解用户需求与 AI 产品理想体验目标,参与多款 AI 产品(含大模型、Agent)的体验评测体系设计,定义科学的评价指标;输出可落地的评估结论与业务优化建议,推动模型迭代与产品体验升级。 2、追踪大模型 / AI Agent 发展趋势、头部厂商技术进展及优劣势,把握行业演进方向;专项调研国内外前沿评测方法及Benchmark,拆解其构建逻辑、评测维度与落地场景,结合小爱业务,持续探索创新型评测解决方案。 3、基于业务场景与评测目标,持续迭代优化评测标准与评测题库;建设Benchmark 及配套评测方法,持续提升评测集的覆盖度与精准度;对接内外部标注团队,搭建并运营数据生产流程,保障数据质量。 4、探索大模型自动化评估方案,参与核心评测工具全链路的需求提出、推动与落地;优化 AI 产品全链路评估流程,提升评估效率与结论置信度。
-AI Agent 用户和商业产品:参与 Agent 能力搭建与评测,如Prompt、RAG、知识库等,设计变现及转化路径并做验证与复盘 -AI搜索用户和商业产品:梳理 AI 搜场景触达点与库存策略,落地实验,跟进收入与用户反馈 -用户场景设计:把真实需求拆成可落地流程,输出轻量 PRD及原型并协同上线 -数据分析:用 SQL和Python做漏斗和因果分析,监控核心指标并提出优化建议