蚂蚁金服蚂蚁集团-大模型应用工程师（自动化评测与benchmark）-健康事业群

社招全职3年以上技术类-算法2026-01-07地点：上海 | 杭州状态：招聘

扫码手机上打开

任职要求

1. 扎实的技术基础：深入理解大模型训练与推理机制（如 SFT/RLHF、MoE、上下文学习），具备 Agent 系统开发或评测经验，并能运用统计方法设计严谨的对比实验；
2. 工程与数据敏感度：追求高效、可复现的评测 pipeline，熟练使用自动化工具（如 LLM-as-a-Jud…

登录查看完整任职要求

微信扫码，1秒登录

工作职责

探索行业前沿的大模型技术，建立科学、全面的评测体系，支持模型演进、产品落地、竞对分析评估。

📮 投递简历 ✨AI模拟面试

难度：

包括英文材料

学历+

大模型+

算法+

Prompt+

RAG+

还有更多 •••

登录查看完整学习资料

相关职位

蚂蚁集团-大模型 Benchmark 与评测体系工程师 / 专家-【垂类大模型】

社招3年以上技术-开发

1. 评测体系设计与平台化落地：主导设计数据驱动的LLM/多模态/Agent评测体系，建设自动化评测分析能力，支持在平台上完成评测任务的适配、调度与规模化分析。 2. 评测洞察与缺陷定位：基于对抗性分析、错误归因、能力边界挖掘等方法，系统定位模型在金融、医疗、小程序/APP等场景的核心短板，推动形成“评测-反馈-优化”的技术闭环。 3. Benchmark与数据资产建设：负责评测数据采集、清洗、标注、版本管理与标准制定，构建高质量、多样化的Benchmark资产： ○ 金融领域：构建并落地多个覆盖金融知识、推理、合规性的专业评测基准，并完成在平台上的自动化适配与调度。 ○ 医疗领域：针对个性化、专业人设、共情能力、长程记忆等高阶交互能力，产出多个创新评测基准，定义下一代智能健康助手的评估标准。 ○ 小程序/APP生态领域：针对海量小程序、APP等复杂交互场景，构建衡量智能体（Agent）端到端任务完成能力的评测基准，覆盖多模态UI理解、任务规划与工具调用等核心维度。 4. 前沿评测范式探索：追踪全球前沿Benchmark与评估技术，研究RLHF/DPO等对齐数据驱动的新评估范式，探索仿真环境、Agent链路评测等新方法，保持技术领先。 5. 快速迭代与工程协同：面向模型快速迭代节奏，提升评测链路自动化与迭代效率，支撑多团队、多模型、多版本的高频评测与回归。

更新于 2026-01-30北京|杭州

大模型应用工程师 (LLM Application Engineer)

社招3-5年信息技术类

利用GPT、Claude、Gemini等顶级模型能力，深入产品/研发/测试场景，通过构建高质量 Agent 和代码智能工具，以数据驱动的方式实质性提升产研效能 1、深入挖掘研发全生命周期痛点，设计并实现基于 LLM 的自动化工作流，覆盖需求分析、代码辅助、自动化测试等核心环节； 2、负责复杂 Agent 的逻辑设计与工程落地，通过高级 Prompt Engineering（CoT, Few-Shot, ReAct）优化智能体的规划与执行能力； 3、构建针对产研场景的 Benchmark（评测集）和 Golden Datasets（黄金数据集）； 4、建立自动化评估流水线（Eval Pipeline），以量化指标（如代码通过率、推理准确率、任务完成耗时）对比不同模型与 Prompt 的效果，用数据指导技术选型； 5、基于 Claude Code 和 Codex 技术，开发高度定制化的 IDE 插件或 CLI 工具，将 AI 代码生成能力无缝融入现有开发环境，提升代码编写质量与交付速度。

更新于 2026-01-27南京|上海|深圳

大语言模型评测工程师

社招3-5年D13917

1、负责LLM大语言模型日常评测工作和评测体系建设，包括但不限于设计制定和完善评测方案、评测指标、评测数据收集和更新、评测执行，并输出专业评测报告，深度参与算法效果分析、挖掘问题归因； 2、以算法手段，对基座大模型、应用大模型以及AI产品进行分阶段、端到端效果评测，持续跟踪行业前沿发展，并进行竞品对比； 3、从可解释性角度探索提出更多更深入的基于模型内在机理的评测基准，包括通用能力、智能应用，如Agent； 4、探索智能、高效的模型自动化评估方案，参与自动化评测工具设计、开发及维护； 5、提出更好的Benchmark，定义模型能力，定义AGI，并在相关会议或期刊发表； 6、站在用户角度，对产品、算法提出建设性的意见，在评测参与的各个流程中以用户视角保证产品体验。

更新于 2025-07-17北京

多模态大模型评测工程师

社招3-5年D13917

1、负责MLLM多模态大模型日常评测工作和评测体系建设，包括设计制定和完善评测方案、评测指标、评测数据收集和更新、评测执行，并输出专业评测报告，深度参与算法效果分析、挖掘问题归因； 2、对MLLM基座大模型和应用大模型进行效果评测，支持大量的自研模型迭代与研发，持续跟踪前沿发展，并进行竞品对比； 3、构建短视频、直播等业务域场景的评测体系，支持各业务域的评测能力； 4、探索智能、高效的模型自动化评估方案，参与自动化评测工具设计、开发及维护； 5、提出更好的Benchmark，定义模型能力，定义AGI，并在相关会议或期刊发表； 6、站在用户角度，对产品、算法提出建设性的意见，在评测参与的各个流程中以用户视角保证产品体验。

更新于 2025-05-19北京