阿里巴巴数据技术及产品部-AI算法工程-Agent测试

社招全职2年以上技术类-质量保证2026-05-22地点：杭州状态：招聘

扫码手机上打开

任职要求

1. AI/NLP评测体系设计能力：熟悉大语言模型（LLM）及AI Agent的评测方法论，能独立设计覆盖准确性、相关性、完整性、时效性等维度的指标体系；具备评测指标量化拆解能力，能将抽象的"回答质量"转化为可度量、可追踪的具体指标；了解主流评测框架（如RAGAS、TruLens、DeepEval等）。
2. 数据分析与问题定位能力：熟练使用SQL进行数据提取与分析，能从数据中识别回答质量的波动与异常；具备根因分析（Root Cause Analysis）能力，能通过case study定位问题出在检索层、语义层还是生成层；有Bad Case标注、分类与归因的实操经验。
3. 业务场景理解能力：具备高管决策场景的业务认知，理解经营分析、财务指标、市场趋势等高管关注的核心问题域；能将业务场景转化为结构化评测用例（test case），覆盖典型问题、边界问题和对抗性问题。
4. 语义…

登录查看完整任职要求

微信扫码，1秒登录

工作职责

1. 负责建立多维度Agent评测指标体系与自动化评估框架，覆盖事实性、逻辑性、安全性及业务适配性等核心能力边界；
2. 构建高管决策等真实业务场景的专项评测集，通过挖掘高频Query与合成对抗性数据，确保评测基准的鲁棒性与权威性；
3. 持续监控Agent线上回答准确率与响应质量，利用全链路追踪工具定位幻觉、检索偏差等问题的根因并输出量化分析报告；
4. 推动语义层和数据层的持续优化迭代，协同算法与数据团队完善NL2SQL解析能力及知识库治理，从源头提升RAG系统的召回准确率；
5. 负责非结构化业务文档的结构化沉淀与知识萃取，将分散的业务术语、指标口径转化为Agent可精准理解与调用的标准化语义资产；
6. 熟悉大模型训练与推理流程（如SFT、RLHF），设计高质量的微调数据集与Bad Case修复方案，驱动模型在特定垂直领域的效果持续提升；
7. 掌握主流Agent开发框架（如LangChain、LlamaIndex）与自动化测试工具链，构建高并发下的Agent稳定性测试与回归测试机制。

📮 投递简历 ✨AI模拟面试

难度：

包括英文材料

NLP+

大模型+

AI agent+

数据分析+

还有更多 •••

登录查看完整学习资料