阿里巴巴阿里国际站-Agent模型评测工程师-杭州
社招全职3年以上技术类-算法地点:杭州状态:招聘
任职要求
1. 3年以上大模型评测、Agent评测、算法工程或AI产品体验相关经验。 2. 主导过至少一个端到端评测体系。 3. 熟悉多轮对话、幻觉、指令遵循、工具调用、多步任务评测方法。 4. 熟练 Python;有沙盒…
登录查看完整任职要求
微信扫码,1秒登录
工作职责
我们正在围绕 阿里巴巴国际站 + Accio 打造面向真实全球贸易场景的 AI Agent。
这不是传统聊天机器人评测岗位,而是要定义:一个 Agent 在真实商业世界里,是否真的会做事。
你会做什么
1. 设计面向跨境贸易场景的 Agent 评测体系,覆盖任务理解、规划、多语言、幻觉控制、工具调用、任务完成率、时延/稳定性/成本等。
2. 构建高质量业务 benchmark,覆盖询盘、RFQ、Research、商家经营、海关/征信/物流等真实任务。
3. 搭建 Agent / Tool Use / Browser Use 评测环境,支持多步任务复现、链路追踪和结果校验。
4. 建设自动化评测能力,包括 LLM-as-Judge、对比评分、多维量表、端到端 success metric。
5. 输出 bad case 归因、能力雷达图和优化建议,推动模型训练与产品迭代闭环。包括英文材料
大模型+
https://www.youtube.com/watch?v=xZDB1naRUlk
You will build projects with LLMs that will enable you to create dynamic interfaces, interact with vast amounts of text data, and even empower LLMs with the capability to browse the internet for research papers.
https://www.youtube.com/watch?v=zjkBMFhNj_g
AI agent+
https://www.ibm.com/think/ai-agents
Your one-stop resource for gaining in-depth knowledge and hands-on applications of AI agents.
算法+
https://roadmap.sh/datastructures-and-algorithms
Step by step guide to learn Data Structures and Algorithms in 2025
https://www.hellointerview.com/learn/code
A visual guide to the most important patterns and approaches for the coding interview.
https://www.w3schools.com/dsa/
还有更多 •••