蚂蚁金服蚂蚁集团-Agent评测开发工程师-杭州
任职要求
1. 算法、计算机或相关专业本科及以上学历(研究生优先); 2. 具备 AI 评测相关经验,能够根据不同的应用场景制定合理的评测标准,涉及 Agent、豆包 / 千问等 AI 应用产品的评测者优先; 3. 有完整数据合成实战案例,了解开源社区的最新动态和技术成果,能快速上手开源项目代码,至少…
工作职责
为蚂蚁 AI 业务建设科学的评测体系,重点参与 AI Agent 评测基准建设,对通用或者垂类 Agent 及其相关业务进行全面评估验证。系统化业务问题识别与优化机制,帮助指引算法和技术迭代方向,推动业务落地并取得效果。
1.有较强的复杂业务理解能力。 2.全面把握产品的功能及非功能需求,设计有效的测试策略;提供有效功能测试设计和测试用例,开发自动化测试脚本并执行。 3.能灵活创新、开发工作中需要的测试工具。 4.能参与系统改造升级,解决可测性问题及系统稳定性保障。 5.有一定的Agent架构和搭建能力、Agent评测经验。
1、构建AI Agent工程基础设施,设计并实现覆盖上下文管理、数据采集、模型训练及评测的全生命周期工程体系; 2、推动Agent基建智能化场景的工程落地,提升大模型在自主规划、RAG增强生成等方面的能力; 3、跟踪LLM与Agent领域的国际前沿技术动态,推动工程技术创新落地,支持复杂任务规划、多模态交互等能力的工程实现; 4、构建端到端的Agent评测与自动化工具链,提升Agent系统性能与效率,打造业内领先的AI Agent技术方案。
我们是阿里巴巴国际数字商业集团 - Accio 工程团队,正在打造全球 B2B 电商领域首个 AI Agent 产品(www.accio.com)。 我们致力于突破传统电商的局限,利用 AI 技术重构跨境贸易的作业流——从趋势洞察、新品研发、全网寻源、多模态匹配,到商家验证。我们在做一个能够处理复杂商业逻辑、具备深度辅助决策能力的智能终端,探索技术在 B2B 复杂场景下的赋能边界。 * 构建高适应性的 Agent 交互架构: 主导设计能够动态响应 AI 推理结果的组件协议与通信机制。你需要解决当后端返回非结构化、流式(Streaming)甚至不确定的数据时,前端如何通过稳健的架构实现精准的 UI 渲染与状态管理,确保用户体验的流畅性与确定性。 * 探索“人机协同”的下一代体验: 深入参与 Agent 业务逻辑设计,负责将前沿的 AI 交互范式(如生成式 UI、多轮对话上下文管理、主动式交互)转化为可落地的工程代码,在浏览器端实现高密度的信息聚合与复杂的富交互功能。 * 建立 AI 时代的工程化标准: 负责 Agent 产品的研发效能与质量体系。面对 AI 带来的长链路延迟与随机性挑战,建设专门的端侧性能优化方案、全链路可观测性平台以及针对 AI 输出的自动化评测(Eval)机制,保障产品在极端场景下的稳定性。