阿里巴巴阿里国际站-Agent模型评测工程师-杭州

社招全职3年以上技术类-算法2026-06-26地点：杭州状态：招聘

扫码手机上打开

任职要求

1. 3年以上大模型评测、Agent评测、算法工程或AI产品体验相关经验。
2. 主导过至少一个端到端评测体系。
3. 熟悉多轮对话、幻觉、指令遵循、工具调用、多步任务评测方法。
4. 熟练 Python；有沙盒…

登录查看完整任职要求

微信扫码，1秒登录

工作职责

我们正在围绕 阿里巴巴国际站 + Accio 打造面向真实全球贸易场景的 AI Agent。
这不是传统聊天机器人评测岗位，而是要定义：一个 Agent 在真实商业世界里，是否真的会做事。

你会做什么
    1. 设计面向跨境贸易场景的 Agent 评测体系，覆盖任务理解、规划、多语言、幻觉控制、工具调用、任务完成率、时延/稳定性/成本等。
    2. 构建高质量业务 benchmark，覆盖询盘、RFQ、Research、商家经营、海关/征信/物流等真实任务。
    3. 搭建 Agent / Tool Use / Browser Use 评测环境，支持多步任务复现、链路追踪和结果校验。
    4. 建设自动化评测能力，包括 LLM-as-Judge、对比评分、多维量表、端到端 success metric。
    5. 输出 bad case 归因、能力雷达图和优化建议，推动模型训练与产品迭代闭环。

📮 投递简历 ✨AI模拟面试

难度：

包括英文材料

大模型+

AI agent+

算法+

还有更多 •••

登录查看完整学习资料