阿里巴巴数据技术及产品部-AI算法工程-Agent测试
社招全职2年以上技术类-质量保证地点:杭州状态:招聘
任职要求
1. AI/NLP评测体系设计能力:熟悉大语言模型(LLM)及AI Agent的评测方法论,能独立设计覆盖准确性、相关性、完整性、时效性等维度的指标体系;具备评测指标量化拆解能力,能将抽象的"回答质量"转化为可度量、可追踪的具体指标;了解主流评测框架(如RAGAS、TruLens、DeepEval等)。 2. 数据分析与问题定位能力:熟练使用SQL进行数据提取与分析,能从数据中识别回答质量的波动与异常;具备根因分析(Root Cause Analysis)能力,能通过case study定位问题出在检索层、语义层还是生成层;有Bad Case标注、分类与归因的实操经验。 3. 业务场景理解能力:具备高管决策场景的业务认知,理解经营分析、财务指标、市场趋势等高管关注的核心问题域;能将业务场景转化为结构化评测用例(test case),覆盖典型问题、边界问题和对抗性问题。 4. 语义…
登录查看完整任职要求
微信扫码,1秒登录
工作职责
1. 负责建立多维度Agent评测指标体系与自动化评估框架,覆盖事实性、逻辑性、安全性及业务适配性等核心能力边界; 2. 构建高管决策等真实业务场景的专项评测集,通过挖掘高频Query与合成对抗性数据,确保评测基准的鲁棒性与权威性; 3. 持续监控Agent线上回答准确率与响应质量,利用全链路追踪工具定位幻觉、检索偏差等问题的根因并输出量化分析报告; 4. 推动语义层和数据层的持续优化迭代,协同算法与数据团队完善NL2SQL解析能力及知识库治理,从源头提升RAG系统的召回准确率; 5. 负责非结构化业务文档的结构化沉淀与知识萃取,将分散的业务术语、指标口径转化为Agent可精准理解与调用的标准化语义资产; 6. 熟悉大模型训练与推理流程(如SFT、RLHF),设计高质量的微调数据集与Bad Case修复方案,驱动模型在特定垂直领域的效果持续提升; 7. 掌握主流Agent开发框架(如LangChain、LlamaIndex)与自动化测试工具链,构建高并发下的Agent稳定性测试与回归测试机制。
包括英文材料
NLP+
https://www.youtube.com/watch?v=fNxaJsNG3-s&list=PLQY2H8rRoyvzDbLUZkbudP-MFQZwNmU4S
Welcome to Zero to Hero for Natural Language Processing using TensorFlow!
https://www.youtube.com/watch?v=R-AG4-qZs1A&list=PLeo1K3hjS3uuvuAXhYjV2lMEShq2UYSwX
Natural Language Processing tutorial for beginners series in Python.
https://www.youtube.com/watch?v=rmVRLeJRkl4&list=PLoROMvodv4rMFqRtEuo6SGjY4XbRIVRd4
The foundations of the effective modern methods for deep learning applied to NLP.
大模型+
https://www.youtube.com/watch?v=xZDB1naRUlk
You will build projects with LLMs that will enable you to create dynamic interfaces, interact with vast amounts of text data, and even empower LLMs with the capability to browse the internet for research papers.
https://www.youtube.com/watch?v=zjkBMFhNj_g
AI agent+
https://www.ibm.com/think/ai-agents
Your one-stop resource for gaining in-depth knowledge and hands-on applications of AI agents.
数据分析+
[英文] Data Analyst Roadmap
https://roadmap.sh/data-analyst
Step by step guide to becoming an Data Analyst in 2025
还有更多 •••