蚂蚁金服蚂蚁集团-Agent评测开发工程师-杭州
任职要求
1. 算法、计算机或相关专业本科及以上学历(研究生优先); 2. 具备 AI 评测相关经验,能够根据不同的应用场景制定合理的评测标准,涉及 Agent、豆包 / 千问等 AI 应用产品的评测者优先; 3. 有完整数据合成实战案例,了解开源社区的最新动态和技术成果,能快速上手开源项目代码,至少…
工作职责
为蚂蚁 AI 业务建设科学的评测体系,重点参与 AI Agent 评测基准建设,对通用或者垂类 Agent 及其相关业务进行全面评估验证。系统化业务问题识别与优化机制,帮助指引算法和技术迭代方向,推动业务落地并取得效果。
1.有较强的复杂业务理解能力。 2.全面把握产品的功能及非功能需求,设计有效的测试策略;提供有效功能测试设计和测试用例,开发自动化测试脚本并执行。 3.能灵活创新、开发工作中需要的测试工具。 4.能参与系统改造升级,解决可测性问题及系统稳定性保障。 5.有一定的Agent架构和搭建能力、Agent评测经验。
关于我们 我们在淘天内部打造面向 AI Agent 的工程基础设施:让不同业务团队可以在统一平台上完成 Agent构建→ 数据采集 → 训练/对齐 → 评测 → 发布 → 线上监控与迭代 的全生命周期闭环,真正做到“平台即生产力”。我们希望把 Agent 的研发从“手工作坊”升级为“工业化流水线”,让创新更快发生、让落地更稳定可控。 你将获得什么 ● 做业内稀缺的 Agent 工程化底座:从上下文管理、工具编排、数据闭环、训练评测一体化到线上治理,搭建可规模化复用的平台能力。 ● 多团队、多方向的真实落地:平台会被内部多个团队复用,你做的每个能力都能在不同业务里验证价值,影响面广、成长快。 ● 工程技术的纵深挑战:既要懂模型与 Agent 范式,也要懂系统工程(稳定性、成本、效率、可观测性、安全治理),是“硬核工程”的最佳战场。 ● 清晰的发展路径:成长为 Agent 平台架构师 / 技术负责人 / AI 工程化专家,推动团队方法论与关键能力组件化在公司内部平台化沉淀与规模化复用,提升多业务线研发效率与交付质量。 岗位职责 1、构建 AI Agent 工程基础设施,设计并实现覆盖Agent构建、数据采集、模型训练、评测、发布、优化迭代的全生命周期工程体系; 2、推动 Agent 基建智能化场景的工程落地,提升大模型在自主规划、RAG 增强生成、智能数据标注与采集、训练自动化等方面的能力; 3、跟踪 LLM与Agent 领域的国际前沿技术动态,推动工程技术创新落地,支持复杂任务规划、多模态交互等能力的工程实现; 4、构建端到端的 Agent 评测与自动化工具链,提升 Agent 系统性能与效率,打造业内领先的 AI Agent 技术方案,并支持内部多业务团队在平台上自主开发与落地。
1、构建AI Agent工程基础设施,设计并实现覆盖上下文管理、数据采集、模型训练及评测的全生命周期工程体系; 2、推动Agent基建智能化场景的工程落地,提升大模型在自主规划、RAG增强生成等方面的能力; 3、跟踪LLM与Agent领域的国际前沿技术动态,推动工程技术创新落地,支持复杂任务规划、多模态交互等能力的工程实现; 4、构建端到端的Agent评测与自动化工具链,提升Agent系统性能与效率,打造业内领先的AI Agent技术方案。