阿里巴巴业务技术-AI Agent 优化工程师-训练/数据/评测-用户场景营销
任职要求
1. 学历背景:硕士及以上学历,计算机、人工智能、软件工程、数据科学或相关专业; 2. 技术能力: a. 评测体系设计:具备评测体系设计能力,能将业务目标转化为可量化、科学、全面的技术指标; b. 工程能力:熟练掌握Python/Java等编程语言,具备工程化开发能力,有自动化评测工具或平台开发经验者优先; c. 数据分析与优化:分析模型缺陷,提出调优建议,协助agent开发团队改进; d. 工具与指标:熟练使用SQL、数据分析工具,熟悉A/B测试、模型可解释性方法等; e. 技术理解:熟悉大模型基础原理(Tr…
工作职责
在大模型与智能体(Agent)成为核心交付形态的趋势下,我们亟需构建科学、高效、贴合业务目标的AI评测能力,驱动Agent能力持续突破上限。作为AI评测工程师,你将深度参与从需求定义到上线监控的全生命周期,打造覆盖能力、鲁棒性、安全性与业务价值的多维评测体系。 具体你将负责: 1. 设计并落地面向真实业务的 Agent 评测体系:针对多步推理、工具调用、代码生成、记忆管理、多Agent协作等核心能力,构建覆盖准确性、鲁棒性、一致性、安全性、执行效率等的多维评估标准与场景化 Benchmark; 2. 构建高质量动态评测数据集:基于真实业务轨迹、合成数据(Synthetic Data)、对抗样本与失败案例(Badcase),持续演进评测集,探索 Agent 能力边界; 3. 研发自动化、高扩展的评测框架与工具链流水线:实现数据管理、指标计算、结果分析与可视化的一站式支持,提升评测效率; 4. 深度分析评测结果:精准定位Agent在推理、规划、记忆、工具使用等环节的缺陷,输出结构化诊断报告与优化建议,推动agent开发团队持续迭代; 5. 评测流程标准化建设:参与AI项目全流程,从需求阶段提供评测支持到上线后的持续观测,保障评测环境稳定性、数据质量与结果可复现性 6. 跟踪LLM与Agent前沿技术(如ReAct、Plan-and-Execute、Self-Reflection等),研究并引入先进评测方法(参考GAIA、AgentBench等行业基准);

这是一个综合的AI推理、优化的技术岗位,适合从事以下工作的候选人投递: ● AI应用构建与模型优化工作的候选人 ● AI应用数据构建与自动化评测工作的候选人 ●多模态AI应用构建与算法优化工作的候选人 围绕真实业务核心场景,参与AI应用的系统化构建与优化,把AI变为业务增长引擎,具体职责包括以下相关方向的一项或多项: 1、AI应用全生命周期演进:深度参与业务问题建模、应用架构设计、上下文工程、训练数据构建、自动化评估体系、模型后训练优化等; 2、数据飞轮构建:打造高质量数据生产链路,探索合成数据(Synthetic Data)与高效蒸馏技术方案,跑通“业务-模型-反馈”迭代闭环; 3、评测体系构建:面向业务目标,设计完备的AI应用效果评估体系,构建自动化评估框架,建立离线评估与在线业务指标联动的量化评估能力; 4、强化学习与奖励机制设计:构建可工程化的Reward体系与RL训练环境,提升模型在垂直业务场景中的可控性与泛化能力; 5、AI外部能力体系搭建:实现AI应用所需的知识库(RAG)、长短期记忆系统(Memory)、工具调用、多Agent协作框架等 6、多模态AI应用开发:构建AI应用的多模态感知与推理能力,解决在UI自动化、视觉理解与审核、多模态会话等场景的落地应用问题。

围绕电商物流核心场景,参与AI应用的系统化构建与优化,把AI变为业务增长引擎,具体职责包括以下相关方向的一项或多项: 1、AI应用全生命周期演进:深度参与业务问题建模、应用架构设计、上下文工程、训练数据构建、自动化评估体系、模型后训练优化等; 2、数据飞轮构建:打造高质量数据生产链路,探索合成数据(Synthetic Data)与高效蒸馏技术方案,跑通“业务-模型-反馈”迭代闭环; 3、评测体系构建:面向业务目标,设计完备的AI应用效果评估体系,构建自动化评估框架,建立离线评估与在线业务指标联动的量化评估能力; 4、强化学习与奖励机制设计:构建可工程化的Reward体系与RL训练环境,提升模型在垂直业务场景中的可控性与泛化能力; 5、AI外部能力体系搭建:实现AI应用所需的知识库(RAG)、长短期记忆系统(Memory)、工具调用、多Agent协作框架等 6、多模态AI应用开发:构建AI应用的多模态感知与推理能力,解决在UI自动化、视觉理解与审核、多模态会话等场景的落地应用问题。
我们致力于打造银行信贷领域的新一代“智能决策大脑”。我们以行业与产业研究为锚点,以数据智能为引擎,深度融合资深信贷专家的经验与海量异构数据洞察,构建面向信贷全生命周期的领域专属决策大模型。 1.主导信贷大模型的后训练体系:通过有监督微调(SFT)、奖励模型(RM)训练、人类反馈强化学习(RLHF)、直接偏好优化(DPO)等领域领先技术,让模型不仅“会回答”,更能“可解释、答得准、判得稳、符合专家直觉”,实现与信贷业务目标的深度对齐。 2.构建垂直领域智能Agent系统的能力:能主导信贷场景下Intelligent Agent的核心框架设计,融合感知、规划、执行与持续学习机制,并通过知识图谱、RAG、NL2SQL等技术打通非结构化知识、结构化数据与自然语言交互,实现从行业洞察、风险画像到决策支持的端到端自动化。 3.打造高质量领域数据飞轮:从零构建面向信贷场景的指令与偏好数据集,设计数据配比、清洗、增强与合成策略,持续提升数据效率与泛化能力——因为你知道,好模型的背后,是更聪明的数据。 4.建立科学严谨的评估体系:构建覆盖准确性、逻辑一致性、风险敏感度、幻觉控制等多维度的自动化评测 pipeline,用数据驱动模型迭代,确保每一个版本都比上一个更可靠、更可用。 5.站在AI+金融的最前沿:紧密跟踪全球大模型的最新进展(如新型偏好学习、多Agent协作等),快速将学术突破转化为业务生产力,解决真实世界中复杂、高 stakes 的信贷决策挑战。同时将领域化的研究转化为高质量的顶会论文,形成持续学术影响力。
1. 负责核心机器学习、深度学习的技术攻关,并编写/指导编写数据挖掘产品的核心代码,和产品组配合完成模型质量的评测并上线,持续进行业务效果闭环优化; 2. 可以基于开源LLM以及多模态大模型,通过SFT、COT、Prompt优化等技术持续优化大模型应用能力;可制定依赖RAG的Agent智能体构建,实现算法效果提升; 3. 基于大规模异构资料(文本、图像、位置)等多种模态资料进行大模型的预训练,构建属于POI业务特色的预训练模型,以及子任务应用和RLHF等闭环优化; 4. 运用机器学习、深度学习、大模型、Agent等AI算法,改善POI数据质量以提升亿级别用户的出行和信息体验。