蚂蚁金服蚂蚁集团-大模型评测专家-杭州/北京

社招全职3年以上技术类-算法2026-06-26地点：北京 | 杭州状态：招聘

扫码手机上打开

任职要求

1. 计算机、人工智能、数学、统计等相关专业，本科及以上，硕士优先；2 年以上大模型评测、NLP 算法或 AI 工程相关经验。
2. 在多模态生成评测、Agent 评估体系、LLM 评测体系三个方向中至少深入掌握一个，具备从 0 到 1 设计评测方案的能力（定义维度、建数据集、选方法）。
3. 扎实的工程能力：熟练 Python，能独立完成评测框架开发与数据分析；了解 PyTorch 等深度学习框架；理解大模型全链路（预训练/SFT/RLHF/DPO/推理）。
4. 优秀的数据敏感度，能从复杂数据中定位关键问题，输出有优先级的可落…

登录查看完整任职要求

微信扫码，1秒登录

工作职责

1. 全场景评测体系建设
负责大模型及 AI 产品的 Benchmark 建设、评测方案设计与持续迭代；覆盖对话、图像理解、语音、多模态生成、Agent 等场景，设计科学合理的评测维度与指标体系；结合竞品分析，为产品和算法优化提供有判断的结论与建议。
2. **重点方向专项深耕和探索
 - 多模态生成：生图/生视频/实时生成/世界模型方向的专项 Benchmark 设计，引入 VLM 视觉评分（参考 VBench、EvalCrafter），结合视觉审美与生成技术理解，系统对比 Sora、Kling 等竞品
 - Agent 评估：为闪应用/闪游戏/异步任务构建覆盖行为轨迹全过程的多层次评估体系，引入过程奖励模型（PRM）、Checklist Reward 等方法，搭建 Playwright + 沙箱自动化评估 harness
 - 评估框架：推动动态多轮评估、Agentic 评估、流式化链路等前沿方法落地，设计跨场景统一评估架构，建立 meta-evaluation 机制，推动评测-训练闭环
3. 工程化与效果诊断
推动评测链路自动化，支持多模型/多版本高频回归；基于 Bad Case 分析定位模型核心短板，将评测结论转化为可落地的优化方向，跟踪业界前沿评测方法持续升级评测体系。

📮 投递简历 ✨AI模拟面试

难度：

包括英文材料

大模型+

NLP+

算法+

AI agent+

Python+

数据分析+

PyTorch+

深度学习+

还有更多 •••

登录查看完整学习资料