阿里巴巴业务技术-AI Agent 优化工程师-训练/数据/评测-用户场景营销

社招全职1年以上2026-04-07地点：杭州状态：招聘

扫码手机上打开

任职要求

1. 学历背景：硕士及以上学历，计算机、人工智能、软件工程、数据科学或相关专业；
2. 技术能力：
a. 评测体系设计：具备评测体系设计能力，能将业务目标转化为可量化、科学、全面的技术指标；
b. 工程能力：熟练掌握Python/Java等编程语言，具备工程化开发能力，有自动化评测工具或平台开发经验者优先；
c. 数据分析与优化：分析模型缺陷，提出调优建议，协助agent开发团队改进;
d. 工具与指标：熟练使用SQL、数据分析工具，熟悉A/B测试、模型可解释性方法等；
e. 技术理解：熟悉大模型基础原理（Tr…

登录查看完整任职要求

微信扫码，1秒登录

工作职责

在大模型与智能体（Agent）成为核心交付形态的趋势下，我们亟需构建科学、高效、贴合业务目标的AI评测能力，驱动Agent能力持续突破上限。作为AI评测工程师，你将深度参与从需求定义到上线监控的全生命周期，打造覆盖能力、鲁棒性、安全性与业务价值的多维评测体系。
具体你将负责：
1. 设计并落地面向真实业务的 Agent 评测体系：针对多步推理、工具调用、代码生成、记忆管理、多Agent协作等核心能力，构建覆盖准确性、鲁棒性、一致性、安全性、执行效率等的多维评估标准与场景化 Benchmark；
2. 构建高质量动态评测数据集：基于真实业务轨迹、合成数据（Synthetic Data）、对抗样本与失败案例（Badcase），持续演进评测集，探索 Agent 能力边界；
3. 研发自动化、高扩展的评测框架与工具链流水线：实现数据管理、指标计算、结果分析与可视化的一站式支持，提升评测效率；
4. 深度分析评测结果：精准定位Agent在推理、规划、记忆、工具使用等环节的缺陷，输出结构化诊断报告与优化建议，推动agent开发团队持续迭代；
5. 评测流程标准化建设：参与AI项目全流程，从需求阶段提供评测支持到上线后的持续观测，保障评测环境稳定性、数据质量与结果可复现性
6. 跟踪LLM与Agent前沿技术（如ReAct、Plan-and-Execute、Self-Reflection等），研究并引入先进评测方法（参考GAIA、AgentBench等行业基准）；

📮 投递简历 ✨AI模拟面试

难度：

包括英文材料

学历+

数据科学+

Python+

Java+

数据分析+

AI agent+

SQL+

还有更多 •••

登录查看完整学习资料

相关职位

业务技术-AI Agent 优化工程师/专家-物流技术

社招2年以上

这是一个综合的AI推理、优化的技术岗位，适合从事以下工作的候选人投递： ● AI应用构建与模型优化工作的候选人 ● AI应用数据构建与自动化评测工作的候选人 ●多模态AI应用构建与算法优化工作的候选人围绕真实业务核心场景，参与AI应用的系统化构建与优化，把AI变为业务增长引擎，具体职责包括以下相关方向的一项或多项： 1、AI应用全生命周期演进：深度参与业务问题建模、应用架构设计、上下文工程、训练数据构建、自动化评估体系、模型后训练优化等； 2、数据飞轮构建：打造高质量数据生产链路，探索合成数据（Synthetic Data）与高效蒸馏技术方案，跑通“业务-模型-反馈”迭代闭环； 3、评测体系构建：面向业务目标，设计完备的AI应用效果评估体系，构建自动化评估框架，建立离线评估与在线业务指标联动的量化评估能力； 4、强化学习与奖励机制设计：构建可工程化的Reward体系与RL训练环境，提升模型在垂直业务场景中的可控性与泛化能力； 5、AI外部能力体系搭建：实现AI应用所需的知识库（RAG）、长短期记忆系统（Memory）、工具调用、多Agent协作框架等 6、多模态AI应用开发：构建AI应用的多模态感知与推理能力，解决在UI自动化、视觉理解与审核、多模态会话等场景的落地应用问题。

更新于 2026-04-08杭州

业务技术-AI Agent 优化工程师/专家-C端物流技术

社招2年以上

围绕电商物流核心场景，参与AI应用的系统化构建与优化，把AI变为业务增长引擎，具体职责包括以下相关方向的一项或多项： 1、AI应用全生命周期演进：深度参与业务问题建模、应用架构设计、上下文工程、训练数据构建、自动化评估体系、模型后训练优化等； 2、数据飞轮构建：打造高质量数据生产链路，探索合成数据（Synthetic Data）与高效蒸馏技术方案，跑通“业务-模型-反馈”迭代闭环； 3、评测体系构建：面向业务目标，设计完备的AI应用效果评估体系，构建自动化评估框架，建立离线评估与在线业务指标联动的量化评估能力； 4、强化学习与奖励机制设计：构建可工程化的Reward体系与RL训练环境，提升模型在垂直业务场景中的可控性与泛化能力； 5、AI外部能力体系搭建：实现AI应用所需的知识库（RAG）、长短期记忆系统（Memory）、工具调用、多Agent协作框架等 6、多模态AI应用开发：构建AI应用的多模态感知与推理能力，解决在UI自动化、视觉理解与审核、多模态会话等场景的落地应用问题。

更新于 2026-04-08杭州

网商银行-高级算法工程师-上海/杭州-1024热招

社招3年以上技术类-算法

我们致力于打造银行信贷领域的新一代“智能决策大脑”。我们以行业与产业研究为锚点，以数据智能为引擎，深度融合资深信贷专家的经验与海量异构数据洞察，构建面向信贷全生命周期的领域专属决策大模型。 1.主导信贷大模型的后训练体系：通过有监督微调（SFT）、奖励模型（RM）训练、人类反馈强化学习（RLHF）、直接偏好优化（DPO）等领域领先技术，让模型不仅“会回答”，更能“可解释、答得准、判得稳、符合专家直觉”，实现与信贷业务目标的深度对齐。 2.构建垂直领域智能Agent系统的能力：能主导信贷场景下Intelligent Agent的核心框架设计，融合感知、规划、执行与持续学习机制，并通过知识图谱、RAG、NL2SQL等技术打通非结构化知识、结构化数据与自然语言交互，实现从行业洞察、风险画像到决策支持的端到端自动化。 3.打造高质量领域数据飞轮：从零构建面向信贷场景的指令与偏好数据集，设计数据配比、清洗、增强与合成策略，持续提升数据效率与泛化能力——因为你知道，好模型的背后，是更聪明的数据。 4.建立科学严谨的评估体系：构建覆盖准确性、逻辑一致性、风险敏感度、幻觉控制等多维度的自动化评测 pipeline，用数据驱动模型迭代，确保每一个版本都比上一个更可靠、更可用。 5.站在AI+金融的最前沿：紧密跟踪全球大模型的最新进展（如新型偏好学习、多Agent协作等），快速将学术突破转化为业务生产力，解决真实世界中复杂、高 stakes 的信贷决策挑战。同时将领域化的研究转化为高质量的顶会论文，形成持续学术影响力。

更新于 2025-11-13上海|杭州

高德-深度学习/NLP/LBS算法工程师(P6/7)-POI智能化（急招）

社招3年以上技术类-算法

1. 负责核心机器学习、深度学习的技术攻关，并编写/指导编写数据挖掘产品的核心代码，和产品组配合完成模型质量的评测并上线，持续进行业务效果闭环优化； 2. 可以基于开源LLM以及多模态大模型，通过SFT、COT、Prompt优化等技术持续优化大模型应用能力；可制定依赖RAG的Agent智能体构建，实现算法效果提升； 3. 基于大规模异构资料（文本、图像、位置）等多种模态资料进行大模型的预训练，构建属于POI业务特色的预训练模型，以及子任务应用和RLHF等闭环优化； 4. 运用机器学习、深度学习、大模型、Agent等AI算法，改善POI数据质量以提升亿级别用户的出行和信息体验。

更新于 2025-07-25北京