美团AI Agent评测实习生
任职要求
1.学历要求:高校优先,软件工程、计算机、数学、心理学等相关专业优先 2.具备一定的编程能力,熟悉Python、Java等语言者优先,且对AI技术和产品评测有浓厚兴趣 3.具备一定的分析能力,能够理解用户需求和产品需求,将模糊需求转化为可执行的标准 4.具备快速学习能力和敏锐的业务洞察力,能够迅速适应并推动业务场景的探索与迭代。 5.强烈的…
工作职责
1.参与AI Agent的功能评测、用户体验测试以及多场景测试,帮助团队识别AI Agent在不同业务场景中的表现 2.协助制定评测标准、设计和执行评测方案、收集和分析评测数据,并撰写评测报告提供有价值的反馈和建议 3.协助评测团队完成日常工作流程的优化和工具的使用,提升评测效率 4.跟踪和研究行业内先进的大语言模型技术和评测方法,为团队提供前沿的知识和见解

1. 充分理解用户在记录、记账、财务管理上的需求痛点,进行Agent效果测评与Benchmark构建。 2. 监控AI功能的用户使用情况,针对用户修改和bad case进行归因分析,通过数据挖掘优化方向。 3. 协助PM进行用户深度访谈,整理用户原始诉求,将其转化为AI Agent的功能点或改进建议。
1、结合小爱AI业务规划,理解用户需求与 AI 产品理想体验目标,参与多款 AI 产品(含大模型、Agent)的体验评测体系设计,定义科学的评价指标;输出可落地的评估结论与业务优化建议,推动模型迭代与产品体验升级。 2、追踪大模型 / AI Agent 发展趋势、头部厂商技术进展及优劣势,把握行业演进方向;专项调研国内外前沿评测方法及Benchmark,拆解其构建逻辑、评测维度与落地场景,结合小爱业务,持续探索创新型评测解决方案。 3、基于业务场景与评测目标,持续迭代优化评测标准与评测题库;建设Benchmark 及配套评测方法,持续提升评测集的覆盖度与精准度;对接内外部标注团队,搭建并运营数据生产流程,保障数据质量。 4、探索大模型自动化评估方案,参与核心评测工具全链路的需求提出、推动与落地;优化 AI 产品全链路评估流程,提升评估效率与结论置信度。
1、构建AI Agent工程基础设施,设计并实现覆盖上下文管理、数据采集、模型训练及评测的全生命周期工程体系; 2、推动Agent基建智能化场景的工程落地,提升大模型在自主规划、RAG增强生成等方面的能力; 3、跟踪LLM与Agent领域的国际前沿技术动态,推动工程技术创新落地,支持复杂任务规划、多模态交互等能力的工程实现; 4、构建端到端的Agent评测与自动化工具链,提升Agent系统性能与效率,打造业内领先的AI Agent技术方案。