logo of antgroup

蚂蚁金服蚂蚁集团-大模型评测专家-杭州/北京

社招全职3年以上技术类-算法地点:北京 | 杭州状态:招聘

任职要求


1. 计算机、人工智能、数学、统计等相关专业,本科及以上,硕士优先;2 年以上大模型评测、NLP 算法或 AI 工程相关经验。
2. 在多模态生成评测、Agent 评估体系、LLM 评测体系三个方向中至少深入掌握一个,具备从 0 到 1 设计评测方案的能力(定义维度、建数据集、选方法)。
3. 扎实的工程能力:熟练 Python,能独立完成评测框架开发与数据分析;了解 PyTorch深度学习框架;理解大模型全链路(预训练/SFT/RLHF/DPO/推理)。
4. 优秀的数据敏感度,能从复杂数据中定位关键问题,输出有优先级的可落…
登录查看完整任职要求
微信扫码,1秒登录

工作职责


1. 全场景评测体系建设
负责大模型及 AI 产品的 Benchmark 建设、评测方案设计与持续迭代;覆盖对话、图像理解、语音、多模态生成、Agent 等场景,设计科学合理的评测维度与指标体系;结合竞品分析,为产品和算法优化提供有判断的结论与建议。
2. **重点方向专项深耕和探索
 - 多模态生成:生图/生视频/实时生成/世界模型方向的专项 Benchmark 设计,引入 VLM 视觉评分(参考 VBench、EvalCrafter),结合视觉审美与生成技术理解,系统对比 Sora、Kling 等竞品
 - Agent 评估:为闪应用/闪游戏/异步任务构建覆盖行为轨迹全过程的多层次评估体系,引入过程奖励模型(PRM)、Checklist Reward 等方法,搭建 Playwright + 沙箱自动化评估 harness
 - 评估框架:推动动态多轮评估、Agentic 评估、流式化链路等前沿方法落地,设计跨场景统一评估架构,建立 meta-evaluation 机制,推动评测-训练闭环
3. 工程化与效果诊断
推动评测链路自动化,支持多模型/多版本高频回归;基于 Bad Case 分析定位模型核心短板,将评测结论转化为可落地的优化方向,跟踪业界前沿评测方法持续升级评测体系。
包括英文材料
大模型+
NLP+
算法+
AI agent+
Python+
数据分析+
PyTorch+
深度学习+
还有更多 •••