logo of alibaba

阿里巴巴业务技术-AI Agent 优化工程师-训练/数据/评测-用户场景营销

社招全职1年以上地点:杭州状态:招聘

任职要求


1. 学历背景:硕士及以上学历,计算机、人工智能、软件工程、数据科学或相关专业;
2. 技术能力:
a. 评测体系设计:具备评测体系设计能力,能将业务目标转化为可量化、科学、全面的技术指标;
b. 工程能力:熟练掌握Python/Java等编程语言,具备工程化开发能力,有自动化评测工具或平台开发经验者优先;
c. 数据分析与优化:分析模型缺陷,提出调优建议,协助agent开发团队改进;
d. 工具与指标:熟练使用SQL数据分析工具,熟悉A/B测试、模型可解释性方法等;
e. 技术理解:熟悉大模型基础原理(Tr…
登录查看完整任职要求
微信扫码,1秒登录

工作职责


在大模型与智能体(Agent)成为核心交付形态的趋势下,我们亟需构建科学、高效、贴合业务目标的AI评测能力,驱动Agent能力持续突破上限。作为AI评测工程师,你将深度参与从需求定义到上线监控的全生命周期,打造覆盖能力、鲁棒性、安全性与业务价值的多维评测体系。
具体你将负责:
1. 设计并落地面向真实业务的 Agent 评测体系:针对多步推理、工具调用、代码生成、记忆管理、多Agent协作等核心能力,构建覆盖准确性、鲁棒性、一致性、安全性、执行效率等的多维评估标准与场景化 Benchmark;
2. 构建高质量动态评测数据集:基于真实业务轨迹、合成数据(Synthetic Data)、对抗样本与失败案例(Badcase),持续演进评测集,探索 Agent 能力边界;
3. 研发自动化、高扩展的评测框架与工具链流水线:实现数据管理、指标计算、结果分析与可视化的一站式支持,提升评测效率;
4. 深度分析评测结果:精准定位Agent在推理、规划、记忆、工具使用等环节的缺陷,输出结构化诊断报告与优化建议,推动agent开发团队持续迭代;
5. 评测流程标准化建设:参与AI项目全流程,从需求阶段提供评测支持到上线后的持续观测,保障评测环境稳定性、数据质量与结果可复现性
6. 跟踪LLM与Agent前沿技术(如ReAct、Plan-and-Execute、Self-Reflection等),研究并引入先进评测方法(参考GAIA、AgentBench等行业基准);
包括英文材料
学历+
数据科学+
Python+
Java+
数据分析+
AI agent+
SQL+
还有更多 •••
相关职位

logo of alibaba
社招3年以上

关于我们 我们在淘天复杂业务场景中打造“可持续进化”的 AI Agent:不仅能回答问题,更能会学、记住、自我纠错。团队聚焦 Agent 记忆系统 + AI 搜索/知识召回 两大方向,在客服、商家经营助理等高复杂场景应用落地,形成了从数据闭环、训练体系到线上评测与迭代的完整链路。 我们相信记忆是下一代 Agent 的分水岭:我们已搭建自研记忆架构,并在多个内部/公开基准上取得领先效果;期待你一起把“记忆”从技术能力升级为业务护城河。 你将获得什么 ● 前沿研究与真实业务同频:围绕记忆结构设计、记忆更新机制、Memory RL/记忆 Agent 等方向做系统化探索,并能快速进入线上验证闭环。 ● 可发挥的技术纵深:从表征/倒排/图索引到多跳检索与路径级训练,从 RAG 到 Agent 记忆规划,既能做算法突破,也能做系统化落地。 ● 高影响力的场景与数据闭环:直接面向真实用户与高并发线上系统,问题复杂但反馈链路清晰,能快速沉淀可复用的技术资产与方法论。 ● 开放的成长路径:支持多元化方向发展,鼓励对外分享与论文/专利沉淀。 岗位职责 1、主导基于大模型的 AI Agent 全生命周期研发,包括通用型及垂直领域 AI Agent 的应用架构设计、数据构建、模型训练与评测; 2、运用 SFT、RL 等 Post-training 训练方法,提升大模型在自主规划(Planning)、多步推理、RAG 增强生成、工具调用、数据问答等方面的能力; 3、重点探索 AI 搜索技术在电商经营知识问答场景的应用落地,优化表征/倒排/图索引的知识召回效果,通过路径级数据的 SFT 训练 + 强化学习微调,提升Agent自主搜索与精准问答能力; 4、围绕记忆结构与记忆更新机制开展核心研发:探索前沿 Memory RL 方案,设计高效记忆 Agent 优化更新策略,并推动团队原创记忆图结构在业务中的规模化落地; 5、持续优化 Agent 算法与系统架构,构建面向问答和 AI 搜索场景的端到端智能体评测体系,开发自动化评估工具与多维评价指标,提升系统性能与效率。

更新于 2026-01-28杭州
logo of alibaba
社招2年以上

关于我们 我们正在淘天复杂业务场景中构建“可持续进化”的 AI Agent:不仅能回答问题,更能从每一次交互中学习、反思并自我优化。团队聚焦 高质量训练数据闭环 与 Agent 自动化评测体系 两大核心方向,在商家经营、智能决策等高复杂度场景中持续落地,已形成从数据采集、质量评估、清洗增强到模型训练与线上验证的完整飞轮。 我们相信,高质量、可扩展的路径级(Chain-of-Action, CoA)数据是 Agent 能力跃迁的燃料。当前,我们正系统性构建面向规划、推理与工具调用的自动化数据生产与评估基础设施,期待你的加入。 你将获得什么 ● 在丰富的真实业务场景中验证价值:技术迭代直接应用于公司的Agent平台,影响成百上千真实业务场景的Agent,快速进入线上验证闭环,获取业务价值和真实反馈。 ● 对Agent数据构建和评估的深刻理解:从大规模轨迹数据采集、多维质量评估指标设计,到 SFT/RL 训练数据增强与人机协同标注体系,既能做算法创新,也能打造高可用数据基建; ● 充分的业务场景真实数据与计算资源: 团队训练资源充足,能在不同架构/不同规模模型上完成微调、对齐与能力专项提升,并形成可复用的训练范式,充分利用各种开源/闭源模型的能力。 ● 个人技术成长:支持多元化方向发展,鼓励对外分享与论文/专利沉淀。 岗位职责 1、主导基于大模型的AI Agent全生命周期研发,包括通用型及垂直领域AI Agent的应用架构设计、数据构建、模型训练与评测; 2、重点探索模型后训练数据质量评估和清洗Pipeline的体系化构建,构建高质量路径级(CoA)训练数据的自动化校验和清洗方案; 3、运用SFT、RL等Post-training训练方法,提升大模型在自主规划(Planning)、多步推理、RAG增强生成、工具调用、数据问答等方面的能力; 4、跟踪LLM与Agent领域的国际前沿技术动态,推动技术创新在业务场景中的落地应用,重点关注模型评测Benchmark、数据构建、Agent自动化评测等技术和应用方向; 5、结合AI基建产品构建起人机协同的Agent训练数据质量和规模的持续提升优化技术能力,为各垂类Agent构建起高质量的训练数据池。

更新于 2026-01-28杭州
logo of alibaba
社招2年以上

关于我们 我们在淘天内部打造面向 AI Agent 的工程基础设施:让不同业务团队可以在统一平台上完成 Agent构建→ 数据采集 → 训练/对齐 → 评测 → 发布 → 线上监控与迭代 的全生命周期闭环,真正做到“平台即生产力”。我们希望把 Agent 的研发从“手工作坊”升级为“工业化流水线”,让创新更快发生、让落地更稳定可控。 你将获得什么 ● 做业内稀缺的 Agent 工程化底座:从上下文管理、工具编排、数据闭环、训练评测一体化到线上治理,搭建可规模化复用的平台能力。 ● 多团队、多方向的真实落地:平台会被内部多个团队复用,你做的每个能力都能在不同业务里验证价值,影响面广、成长快。 ● 工程技术的纵深挑战:既要懂模型与 Agent 范式,也要懂系统工程(稳定性、成本、效率、可观测性、安全治理),是“硬核工程”的最佳战场。 ● 清晰的发展路径:成长为 Agent 平台架构师 / 技术负责人 / AI 工程化专家,推动团队方法论与关键能力组件化在公司内部平台化沉淀与规模化复用,提升多业务线研发效率与交付质量。 岗位职责 1、构建 AI Agent 工程基础设施,设计并实现覆盖Agent构建、数据采集、模型训练、评测、发布、优化迭代的全生命周期工程体系; 2、推动 Agent 基建智能化场景的工程落地,提升大模型在自主规划、RAG 增强生成、智能数据标注与采集、训练自动化等方面的能力; 3、跟踪 LLM与Agent 领域的国际前沿技术动态,推动工程技术创新落地,支持复杂任务规划、多模态交互等能力的工程实现; 4、构建端到端的 Agent 评测与自动化工具链,提升 Agent 系统性能与效率,打造业内领先的 AI Agent 技术方案,并支持内部多业务团队在平台上自主开发与落地。

更新于 2026-01-29杭州
logo of alibaba
社招1年以上

我们是淘天集团营销&交易技术线淘特用户技术团队,主要负责淘特C端链路&淘宝行业的研发工作,包含:搜索推荐、用户运营、导购、交易等C端基础服务及B端招商供给业务。来这里你可以接触到核心电商业务和前沿AI的探索落地。 1、负责面向淘特业务场景的大模型应用研发与落地交付,完成从需求澄清、方案设计、工程实现到上线运营的全链路闭环,持续创造可量化业务价值; 2、负责深度学习/大模型相关能力的开发与训练链路衔接,包括数据处理、特征/样本构建、模型选型、调参与优化,支撑淘特业务场景快速迭代,并通过评测与监控形成持续迭代闭环; 3、协同大数据、云计算等团队完成接口对接与联调,推进 AI 系统与淘特现有系统的深度融合; 4、调研业界先进的技术实践,参与技术难题攻关,探索AI应用落地,持续引入技术创新支撑淘特业务发展。

更新于 2026-03-24杭州