蚂蚁金服蚂蚁集团-大模型 Benchmark 与评测体系工程师 / 专家-【垂类大模型】

社招全职3年以上技术-开发2026-01-30地点：北京 | 杭州状态：招聘

扫码手机上打开

任职要求

● 计算机、人工智能、数学等相关专业，研究生及以上学历优先。
● 3年以上AI/NLP/模型评测相关经验，至少1年大模型相关项目经验。
● 优秀的数据敏感度与逻辑分析能力，能从复杂数据中定位关键问题并给出可落地方案。
● 深入理解大模型全链路：训练、推理、微调、评估与对齐。
● 扎实的Python与算法基础，熟悉PyTorch等主流深度学习框…

登录查看完整任职要求

微信扫码，1秒登录

工作职责

1. 评测体系设计与平台化落地：主导设计数据驱动的LLM/多模态/Agent评测体系，建设自动化评测分析能力，支持在平台上完成评测任务的适配、调度与规模化分析。
2. 评测洞察与缺陷定位：基于对抗性分析、错误归因、能力边界挖掘等方法，系统定位模型在金融、医疗、小程序/APP等场景的核心短板，推动形成“评测-反馈-优化”的技术闭环。
3. Benchmark与数据资产建设：负责评测数据采集、清洗、标注、版本管理与标准制定，构建高质量、多样化的Benchmark资产：
  ○ 金融领域：构建并落地多个覆盖金融知识、推理、合规性的专业评测基准，并完成在平台上的自动化适配与调度。
  ○ 医疗领域：针对个性化、专业人设、共情能力、长程记忆等高阶交互能力，产出多个创新评测基准，定义下一代智能健康助手的评估标准。
  ○ 小程序/APP生态领域：针对海量小程序、APP等复杂交互场景，构建衡量智能体（Agent）端到端任务完成能力的评测基准，覆盖多模态UI理解、任务规划与工具调用等核心维度。
4. 前沿评测范式探索：追踪全球前沿Benchmark与评估技术，研究RLHF/DPO等对齐数据驱动的新评估范式，探索仿真环境、Agent链路评测等新方法，保持技术领先。
5. 快速迭代与工程协同：面向模型快速迭代节奏，提升评测链路自动化与迭代效率，支撑多团队、多模型、多版本的高频评测与回归。

📮 投递简历 ✨AI模拟面试

难度：

包括英文材料

学历+

NLP+

大模型+

Python+

算法+

PyTorch+

还有更多 •••

登录查看完整学习资料

相关职位

AI Business-大模型评测高级算法工程师/专家-杭州

社招2年以上技术类-数据

作为大模型评测研发工程师，将负责“大模型通用Benchmark评测体系”与“业务领域Benchmark构建”的全链路研发：从评测数据集设计、智能化自动化评估方法探索研究、指标实现，到平台化落地，精准衡量模型能力边界，持续驱动模型语料优化与模型迭代通用 Benchmark 研发 • 持续迭代覆盖语言理解、推理、知识、幻觉、对齐、代码、多模态、Agent 等各个维度的自动化评测框架； • 研究并实现更贴合业务发展的评测方法与指标，构建高效、可扩展、可复现、可解释的评测引擎业务领域 Benchmark 构建与评测 • 深入跨境电商各个业务领域，构建领域Benchmark，真实反馈模型业务表现 • 设计场景化评估方案，如RAG、Agent、COT、 In-Context Learning等，并形成端到端评测能力；评测方法研究 • 探索基于 LLM-as-a-Judge、人类偏好对齐、模型解释性等前沿评测技术 • 跟踪 ACL / EMNLP / NeurIPS / ICML / ICLR 等会议，高效复现SOTA方法，形成可比对可参考的评估系统

更新于 2026-01-27杭州

1688-评测算法工程师-Agentic AI

社招2年以上

- 构建并完善大模型评测体系，包括评测标准制定，评测工具链开发和评测数据集建设； - 基于agentic业务需求设计评测方案，开展多维度模型评估，输出专业评测报告； - 参与Agent /工具调用在垂直领域的算法工程化实现及性能评估研究； - 沉淀业务专家知识到 reward/critic 层面实现LLM-as-judge，沉淀长链数据资产；

更新于 2025-10-30杭州

业务技术-Agent数据算法工程师-供给智能

社招2年以上

关于我们我们正在淘天复杂业务场景中构建“可持续进化”的 AI Agent：不仅能回答问题，更能从每一次交互中学习、反思并自我优化。团队聚焦高质量训练数据闭环与 Agent 自动化评测体系两大核心方向，在商家经营、智能决策等高复杂度场景中持续落地，已形成从数据采集、质量评估、清洗增强到模型训练与线上验证的完整飞轮。我们相信，高质量、可扩展的路径级（Chain-of-Action, CoA）数据是 Agent 能力跃迁的燃料。当前，我们正系统性构建面向规划、推理与工具调用的自动化数据生产与评估基础设施，期待你的加入。你将获得什么 ● 在丰富的真实业务场景中验证价值：技术迭代直接应用于公司的Agent平台，影响成百上千真实业务场景的Agent，快速进入线上验证闭环，获取业务价值和真实反馈。 ● 对Agent数据构建和评估的深刻理解：从大规模轨迹数据采集、多维质量评估指标设计，到 SFT/RL 训练数据增强与人机协同标注体系，既能做算法创新，也能打造高可用数据基建； ● 充分的业务场景真实数据与计算资源：团队训练资源充足，能在不同架构/不同规模模型上完成微调、对齐与能力专项提升，并形成可复用的训练范式，充分利用各种开源/闭源模型的能力。 ● 个人技术成长：支持多元化方向发展，鼓励对外分享与论文/专利沉淀。岗位职责 1、主导基于大模型的AI Agent全生命周期研发，包括通用型及垂直领域AI Agent的应用架构设计、数据构建、模型训练与评测； 2、重点探索模型后训练数据质量评估和清洗Pipeline的体系化构建，构建高质量路径级（CoA）训练数据的自动化校验和清洗方案； 3、运用SFT、RL等Post-training训练方法，提升大模型在自主规划（Planning）、多步推理、RAG增强生成、工具调用、数据问答等方面的能力； 4、跟踪LLM与Agent领域的国际前沿技术动态，推动技术创新在业务场景中的落地应用，重点关注模型评测Benchmark、数据构建、Agent自动化评测等技术和应用方向； 5、结合AI基建产品构建起人机协同的Agent训练数据质量和规模的持续提升优化技术能力，为各垂类Agent构建起高质量的训练数据池。

更新于 2026-01-28杭州

蚂蚁集团-大模型应用工程师（自动化评测与benchmark）-健康事业群

社招3年以上技术类-算法

探索行业前沿的大模型技术，建立科学、全面的评测体系，支持模型演进、产品落地、竞对分析评估。

更新于 2026-01-07上海|杭州