阿里巴巴业务技术-AI Agent 评测工程师-杭州
任职要求
1.本科及以上学历,计算机相关专业,良好的专业基础(数据结构、算法、编程语言、数据库等),对软件工程理论和实践均有深刻理解。 2.具备丰富的中大型复杂系统软件测试分析及业务支撑经验,并能贴近业务,进行有效的方案整合。 3.熟悉C/C+…
工作职责
1.有较强的复杂业务理解能力。 2.全面把握产品的功能及非功能需求,设计有效的测试策略;提供有效功能测试设计和测试用例,开发自动化测试脚本并执行。 3.能灵活创新、开发工作中需要的测试工具。 4.能参与系统改造升级,解决可测性问题及系统稳定性保障。 5.有一定的Agent架构和搭建能力、Agent评测经验。
关于我们 我们在淘天内部打造面向 AI Agent 的工程基础设施:让不同业务团队可以在统一平台上完成 Agent构建→ 数据采集 → 训练/对齐 → 评测 → 发布 → 线上监控与迭代 的全生命周期闭环,真正做到“平台即生产力”。我们希望把 Agent 的研发从“手工作坊”升级为“工业化流水线”,让创新更快发生、让落地更稳定可控。 你将获得什么 ● 做业内稀缺的 Agent 工程化底座:从上下文管理、工具编排、数据闭环、训练评测一体化到线上治理,搭建可规模化复用的平台能力。 ● 多团队、多方向的真实落地:平台会被内部多个团队复用,你做的每个能力都能在不同业务里验证价值,影响面广、成长快。 ● 工程技术的纵深挑战:既要懂模型与 Agent 范式,也要懂系统工程(稳定性、成本、效率、可观测性、安全治理),是“硬核工程”的最佳战场。 ● 清晰的发展路径:成长为 Agent 平台架构师 / 技术负责人 / AI 工程化专家,推动团队方法论与关键能力组件化在公司内部平台化沉淀与规模化复用,提升多业务线研发效率与交付质量。 岗位职责 1、构建 AI Agent 工程基础设施,设计并实现覆盖Agent构建、数据采集、模型训练、评测、发布、优化迭代的全生命周期工程体系; 2、推动 Agent 基建智能化场景的工程落地,提升大模型在自主规划、RAG 增强生成、智能数据标注与采集、训练自动化等方面的能力; 3、跟踪 LLM与Agent 领域的国际前沿技术动态,推动工程技术创新落地,支持复杂任务规划、多模态交互等能力的工程实现; 4、构建端到端的 Agent 评测与自动化工具链,提升 Agent 系统性能与效率,打造业内领先的 AI Agent 技术方案,并支持内部多业务团队在平台上自主开发与落地。
1、构建AI Agent工程基础设施,设计并实现覆盖上下文管理、数据采集、模型训练及评测的全生命周期工程体系; 2、推动Agent基建智能化场景的工程落地,提升大模型在自主规划、RAG增强生成等方面的能力; 3、跟踪LLM与Agent领域的国际前沿技术动态,推动工程技术创新落地,支持复杂任务规划、多模态交互等能力的工程实现; 4、构建端到端的Agent评测与自动化工具链,提升Agent系统性能与效率,打造业内领先的AI Agent技术方案。
为蚂蚁 AI 业务建设科学的评测体系,重点参与 AI Agent 评测基准建设,对通用或者垂类 Agent 及其相关业务进行全面评估验证。系统化业务问题识别与优化机制,帮助指引算法和技术迭代方向,推动业务落地并取得效果。
我们正在寻找热爱 AI 的你,共同探索智能物流领域的无限可能。如果你渴望在日均亿级包裹的淘天电商物流网络中,用 AI Agent 重构淘天电商物流业务形态,构建下一代淘天智能物流技术体系,这里是你理想的舞台!加入我们,你将: 1. 重塑物流履约体验:构建消费者体验、智能订单履约、智能物流质控、智能财务损益、商家运营提效等物流 Agent,实现从订单接入到末端配送的全链路智能决策,让每一个包裹更快、更准、更省地送达消费者手中; 2. 驱动物流数据智能化:建设智能数据商业分析 Agent,以 AI 驱动物流数据需求高效交付、商业洞察主动发现、分析能力跨场景规模化复用,让数据从"被动出报表"进化为"主动驱动业务决策",支撑物流业务商业决策; 3. 构建智能物流技术基建:打造智能物流 Agent 基础设施平台,建设统一的开发框架、评估体系、可观测性平台、工具链与安全护栏,为物流全场景 Agent 规模化落地提供坚实底座,打造 AI 时代高效交付的新研发模式; 4. 实践敏捷全栈团队:参与以业务价值交付为中心的敏捷全栈团队实践——以业务目标驱动需求拆解,以端到端闭环打通业务需求、产品设计、Agent 研发、测试评估、产品发布到智能运营的完整研发流程,以持续交付、测试左移、即时反馈的敏捷实践驱动业务价值落地; 在 AI 与物流深度融合的新时代,让我们一起用 Agent 重新定义物流!来吧,期待你的加入,开启属于你的智能物流创新之旅!