logo of alibaba

阿里巴巴阿里国际站-Agent模型评测工程师-杭州

社招全职3年以上技术类-算法地点:杭州状态:招聘

任职要求


1. 3年以上大模型评测、Agent评测、算法工程或AI产品体验相关经验。
2. 主导过至少一个端到端评测体系。
3. 熟悉多轮对话、幻觉、指令遵循、工具调用、多步任务评测方法。
4. 熟练 Python;有沙盒…
登录查看完整任职要求
微信扫码,1秒登录

工作职责


我们正在围绕 阿里巴巴国际站 + Accio 打造面向真实全球贸易场景的 AI Agent。
这不是传统聊天机器人评测岗位,而是要定义:一个 Agent 在真实商业世界里,是否真的会做事。

你会做什么
    1. 设计面向跨境贸易场景的 Agent 评测体系,覆盖任务理解、规划、多语言、幻觉控制、工具调用、任务完成率、时延/稳定性/成本等。
    2. 构建高质量业务 benchmark,覆盖询盘、RFQ、Research、商家经营、海关/征信/物流等真实任务。
    3. 搭建 Agent / Tool Use / Browser Use 评测环境,支持多步任务复现、链路追踪和结果校验。
    4. 建设自动化评测能力,包括 LLM-as-Judge、对比评分、多维量表、端到端 success metric。
    5. 输出 bad case 归因、能力雷达图和优化建议,推动模型训练与产品迭代闭环。
包括英文材料
大模型+
AI agent+
算法+
还有更多 •••