蚂蚁金服蚂蚁集团-大模型 Benchmark 与评测体系工程师 / 专家-【垂类大模型】
任职要求
● 计算机、人工智能、数学等相关专业,研究生及以上学历优先。 ● 3年以上AI/NLP/模型评测相关经验,至少1年大模型相关项目经验。 ● 优秀的数据敏感度与逻辑分析能力,能从复杂数据中定位关键问题并给出可落地方案。 ● 深入理解大模型全链路:训练、推理、微调、评估与对齐。 ● 扎实的Python与算法基础,熟悉PyTorch等主流深度学习框…
工作职责
1. 评测体系设计与平台化落地:主导设计数据驱动的LLM/多模态/Agent评测体系,建设自动化评测分析能力,支持在平台上完成评测任务的适配、调度与规模化分析。 2. 评测洞察与缺陷定位:基于对抗性分析、错误归因、能力边界挖掘等方法,系统定位模型在金融、医疗、小程序/APP等场景的核心短板,推动形成“评测-反馈-优化”的技术闭环。 3. Benchmark与数据资产建设:负责评测数据采集、清洗、标注、版本管理与标准制定,构建高质量、多样化的Benchmark资产: ○ 金融领域:构建并落地多个覆盖金融知识、推理、合规性的专业评测基准,并完成在平台上的自动化适配与调度。 ○ 医疗领域:针对个性化、专业人设、共情能力、长程记忆等高阶交互能力,产出多个创新评测基准,定义下一代智能健康助手的评估标准。 ○ 小程序/APP生态领域:针对海量小程序、APP等复杂交互场景,构建衡量智能体(Agent)端到端任务完成能力的评测基准,覆盖多模态UI理解、任务规划与工具调用等核心维度。 4. 前沿评测范式探索:追踪全球前沿Benchmark与评估技术,研究RLHF/DPO等对齐数据驱动的新评估范式,探索仿真环境、Agent链路评测等新方法,保持技术领先。 5. 快速迭代与工程协同:面向模型快速迭代节奏,提升评测链路自动化与迭代效率,支撑多团队、多模型、多版本的高频评测与回归。
作为大模型评测研发工程师,将负责“大模型通用Benchmark评测体系”与“业务领域Benchmark构建”的全链路研发:从评测数据集设计、智能化自动化评估方法探索研究、指标实现,到平台化落地,精准衡量模型能力边界,持续驱动模型语料优化与模型迭代 通用 Benchmark 研发 • 持续迭代覆盖语言理解、推理、知识、幻觉、对齐、代码、多模态、Agent 等各个维度的自动化评测框架; • 研究并实现更贴合业务发展的评测方法与指标,构建高效、可扩展、可复现、可解释的评测引擎 业务领域 Benchmark 构建与评测 • 深入跨境电商各个业务领域,构建领域Benchmark,真实反馈模型业务表现 • 设计场景化评估方案,如RAG、Agent、COT、 In-Context Learning等,并形成端到端评测能力; 评测方法研究 • 探索基于 LLM-as-a-Judge、人类偏好对齐、模型解释性等前沿评测技术 • 跟踪 ACL / EMNLP / NeurIPS / ICML / ICLR 等会议,高效复现SOTA方法,形成可比对可参考的评估系统
- 构建并完善大模型评测体系,包括评测标准制定,评测工具链开发和评测数据集建设; - 基于agentic业务需求设计评测方案,开展多维度模型评估,输出专业评测报告; - 参与Agent /工具调用 在垂直领域的算法工程化实现及性能评估研究; - 沉淀业务专家知识到 reward/critic 层面实现LLM-as-judge,沉淀长链数据资产;
关于我们 我们正在淘天复杂业务场景中构建“可持续进化”的 AI Agent:不仅能回答问题,更能从每一次交互中学习、反思并自我优化。团队聚焦 高质量训练数据闭环 与 Agent 自动化评测体系 两大核心方向,在商家经营、智能决策等高复杂度场景中持续落地,已形成从数据采集、质量评估、清洗增强到模型训练与线上验证的完整飞轮。 我们相信,高质量、可扩展的路径级(Chain-of-Action, CoA)数据是 Agent 能力跃迁的燃料。当前,我们正系统性构建面向规划、推理与工具调用的自动化数据生产与评估基础设施,期待你的加入。 你将获得什么 ● 在丰富的真实业务场景中验证价值:技术迭代直接应用于公司的Agent平台,影响成百上千真实业务场景的Agent,快速进入线上验证闭环,获取业务价值和真实反馈。 ● 对Agent数据构建和评估的深刻理解:从大规模轨迹数据采集、多维质量评估指标设计,到 SFT/RL 训练数据增强与人机协同标注体系,既能做算法创新,也能打造高可用数据基建; ● 充分的业务场景真实数据与计算资源: 团队训练资源充足,能在不同架构/不同规模模型上完成微调、对齐与能力专项提升,并形成可复用的训练范式,充分利用各种开源/闭源模型的能力。 ● 个人技术成长:支持多元化方向发展,鼓励对外分享与论文/专利沉淀。 岗位职责 1、主导基于大模型的AI Agent全生命周期研发,包括通用型及垂直领域AI Agent的应用架构设计、数据构建、模型训练与评测; 2、重点探索模型后训练数据质量评估和清洗Pipeline的体系化构建,构建高质量路径级(CoA)训练数据的自动化校验和清洗方案; 3、运用SFT、RL等Post-training训练方法,提升大模型在自主规划(Planning)、多步推理、RAG增强生成、工具调用、数据问答等方面的能力; 4、跟踪LLM与Agent领域的国际前沿技术动态,推动技术创新在业务场景中的落地应用,重点关注模型评测Benchmark、数据构建、Agent自动化评测等技术和应用方向; 5、结合AI基建产品构建起人机协同的Agent训练数据质量和规模的持续提升优化技术能力,为各垂类Agent构建起高质量的训练数据池。