logo of alibaba

阿里巴巴数据技术及产品部-AI算法工程-Agent测试

社招全职2年以上技术类-质量保证地点:杭州状态:招聘

任职要求


1. AI/NLP评测体系设计能力:熟悉大语言模型(LLM)及AI Agent的评测方法论,能独立设计覆盖准确性、相关性、完整性、时效性等维度的指标体系;具备评测指标量化拆解能力,能将抽象的"回答质量"转化为可度量、可追踪的具体指标;了解主流评测框架(如RAGAS、TruLens、DeepEval等)。
2. 数据分析与问题定位能力:熟练使用SQL进行数据提取与分析,能从数据中识别回答质量的波动与异常;具备根因分析(Root Cause Analysis)能力,能通过case study定位问题出在检索层、语义层还是生成层;有Bad Case标注、分类与归因的实操经验。
3. 业务场景理解能力:具备高管决策场景的业务认知,理解经营分析、财务指标、市场趋势等高管关注的核心问题域;能将业务场景转化为结构化评测用例(test case),覆盖典型问题、边界问题和对抗性问题。
4. 语义…
登录查看完整任职要求
微信扫码,1秒登录

工作职责


1. 负责建立多维度Agent评测指标体系与自动化评估框架,覆盖事实性、逻辑性、安全性及业务适配性等核心能力边界;
2. 构建高管决策等真实业务场景的专项评测集,通过挖掘高频Query与合成对抗性数据,确保评测基准的鲁棒性与权威性;
3. 持续监控Agent线上回答准确率与响应质量,利用全链路追踪工具定位幻觉、检索偏差等问题的根因并输出量化分析报告;
4. 推动语义层和数据层的持续优化迭代,协同算法与数据团队完善NL2SQL解析能力及知识库治理,从源头提升RAG系统的召回准确率;
5. 负责非结构化业务文档的结构化沉淀与知识萃取,将分散的业务术语、指标口径转化为Agent可精准理解与调用的标准化语义资产;
6. 熟悉大模型训练与推理流程(如SFT、RLHF),设计高质量的微调数据集与Bad Case修复方案,驱动模型在特定垂直领域的效果持续提升;
7. 掌握主流Agent开发框架(如LangChain、LlamaIndex)与自动化测试工具链,构建高并发下的Agent稳定性测试与回归测试机制。
包括英文材料
NLP+
大模型+
AI agent+
数据分析+
还有更多 •••