logo of antgroup

蚂蚁金服蚂蚁集团-Agent评测开发工程师-杭州

社招全职3年以上技术类-开发地点:杭州状态:招聘

任职要求


1. 算法、计算机或相关专业本科及以上学历(研究生优先);
2. 具备 AI 评测相关经验,能够根据不同的应用场景制定合理的评测标准,涉及 Agent、豆包 / 千问等 AI 应用产品的评测者优先;
3. 有完整数据合成实战案例,了解开源社区的最新动态和技术成果,能快速上手开源项目代码,至少…
登录查看完整任职要求
微信扫码,1秒登录

工作职责


为蚂蚁 AI 业务建设科学的评测体系,重点参与 AI Agent 评测基准建设,对通用或者垂类 Agent 及其相关业务进行全面评估验证。系统化业务问题识别与优化机制,帮助指引算法和技术迭代方向,推动业务落地并取得效果。
包括英文材料
算法+
学历+
AI agent+
还有更多 •••
相关职位

logo of alibaba
社招1年以上

1.有较强的复杂业务理解能力。 2.全面把握产品的功能及非功能需求,设计有效的测试策略;提供有效功能测试设计和测试用例,开发自动化测试脚本并执行。 3.能灵活创新、开发工作中需要的测试工具。 4.能参与系统改造升级,解决可测性问题及系统稳定性保障。 5.有一定的Agent架构和搭建能力、Agent评测经验。

更新于 2025-11-14杭州
logo of alibaba
实习淘天集团日常实习

1、构建AI Agent工程基础设施,设计并实现覆盖上下文管理、数据采集、模型训练及评测的全生命周期工程体系; 2、推动Agent基建智能化场景的工程落地,提升大模型在自主规划、RAG增强生成等方面的能力; 3、跟踪LLM与Agent领域的国际前沿技术动态,推动工程技术创新落地,支持复杂任务规划、多模态交互等能力的工程实现; 4、构建端到端的Agent评测与自动化工具链,提升Agent系统性能与效率,打造业内领先的AI Agent技术方案。

更新于 2025-11-18杭州
logo of alibaba
社招2年以上技术类-前端

我们是阿里巴巴国际数字商业集团 - Accio 工程团队,正在打造全球 B2B 电商领域首个 AI Agent 产品(www.accio.com)。 我们致力于突破传统电商的局限,利用 AI 技术重构跨境贸易的作业流——从趋势洞察、新品研发、全网寻源、多模态匹配,到商家验证。我们在做一个能够处理复杂商业逻辑、具备深度辅助决策能力的智能终端,探索技术在 B2B 复杂场景下的赋能边界。 * 构建高适应性的 Agent 交互架构: 主导设计能够动态响应 AI 推理结果的组件协议与通信机制。你需要解决当后端返回非结构化、流式(Streaming)甚至不确定的数据时,前端如何通过稳健的架构实现精准的 UI 渲染与状态管理,确保用户体验的流畅性与确定性。 * 探索“人机协同”的下一代体验: 深入参与 Agent 业务逻辑设计,负责将前沿的 AI 交互范式(如生成式 UI、多轮对话上下文管理、主动式交互)转化为可落地的工程代码,在浏览器端实现高密度的信息聚合与复杂的富交互功能。 * 建立 AI 时代的工程化标准: 负责 Agent 产品的研发效能与质量体系。面对 AI 带来的长链路延迟与随机性挑战,建设专门的端侧性能优化方案、全链路可观测性平台以及针对 AI 输出的自动化评测(Eval)机制,保障产品在极端场景下的稳定性。

更新于 2026-01-13杭州
logo of alibaba
社招2年以上

1. 负责大淘宝直播业务的前端开发工作,协助优化现有功能及新功能的实现,和视觉交互设计师打造最酷的用户产品。 2. 负责前端 AI 基建,包括不限于 研发Agent、D2C、组件识别、AI CR 等产品,支撑直播业务高质量快速交付。 3. 关注用户体验,持续的性能优化,实现极致的页面加载、执行和渲染优化。 4. 通过对业务深刻的理解,改进技术方案,提高团队整体的研发效率和质量。 5. 沉淀终端技术解决方案、构建面向终端开发者(App&Web)的解决方案; 6. 探索 AI 时代下前端研发新范式。

更新于 2025-11-13北京|杭州