蚂蚁金服蚂蚁集团-大模型评测专家-杭州/北京
社招全职3年以上技术类-算法地点:北京 | 杭州状态:招聘
任职要求
1. 计算机、人工智能、数学、统计等相关专业,本科及以上,硕士优先;2 年以上大模型评测、NLP 算法或 AI 工程相关经验。 2. 在多模态生成评测、Agent 评估体系、LLM 评测体系三个方向中至少深入掌握一个,具备从 0 到 1 设计评测方案的能力(定义维度、建数据集、选方法)。 3. 扎实的工程能力:熟练 Python,能独立完成评测框架开发与数据分析;了解 PyTorch 等深度学习框架;理解大模型全链路(预训练/SFT/RLHF/DPO/推理)。 4. 优秀的数据敏感度,能从复杂数据中定位关键问题,输出有优先级的可落…
登录查看完整任职要求
微信扫码,1秒登录
工作职责
1. 全场景评测体系建设 负责大模型及 AI 产品的 Benchmark 建设、评测方案设计与持续迭代;覆盖对话、图像理解、语音、多模态生成、Agent 等场景,设计科学合理的评测维度与指标体系;结合竞品分析,为产品和算法优化提供有判断的结论与建议。 2. **重点方向专项深耕和探索 - 多模态生成:生图/生视频/实时生成/世界模型方向的专项 Benchmark 设计,引入 VLM 视觉评分(参考 VBench、EvalCrafter),结合视觉审美与生成技术理解,系统对比 Sora、Kling 等竞品 - Agent 评估:为闪应用/闪游戏/异步任务构建覆盖行为轨迹全过程的多层次评估体系,引入过程奖励模型(PRM)、Checklist Reward 等方法,搭建 Playwright + 沙箱自动化评估 harness - 评估框架:推动动态多轮评估、Agentic 评估、流式化链路等前沿方法落地,设计跨场景统一评估架构,建立 meta-evaluation 机制,推动评测-训练闭环 3. 工程化与效果诊断 推动评测链路自动化,支持多模型/多版本高频回归;基于 Bad Case 分析定位模型核心短板,将评测结论转化为可落地的优化方向,跟踪业界前沿评测方法持续升级评测体系。
包括英文材料
大模型+
https://www.youtube.com/watch?v=xZDB1naRUlk
You will build projects with LLMs that will enable you to create dynamic interfaces, interact with vast amounts of text data, and even empower LLMs with the capability to browse the internet for research papers.
https://www.youtube.com/watch?v=zjkBMFhNj_g
NLP+
https://www.youtube.com/watch?v=fNxaJsNG3-s&list=PLQY2H8rRoyvzDbLUZkbudP-MFQZwNmU4S
Welcome to Zero to Hero for Natural Language Processing using TensorFlow!
https://www.youtube.com/watch?v=R-AG4-qZs1A&list=PLeo1K3hjS3uuvuAXhYjV2lMEShq2UYSwX
Natural Language Processing tutorial for beginners series in Python.
https://www.youtube.com/watch?v=rmVRLeJRkl4&list=PLoROMvodv4rMFqRtEuo6SGjY4XbRIVRd4
The foundations of the effective modern methods for deep learning applied to NLP.
算法+
https://roadmap.sh/datastructures-and-algorithms
Step by step guide to learn Data Structures and Algorithms in 2025
https://www.hellointerview.com/learn/code
A visual guide to the most important patterns and approaches for the coding interview.
https://www.w3schools.com/dsa/
AI agent+
https://www.ibm.com/think/ai-agents
Your one-stop resource for gaining in-depth knowledge and hands-on applications of AI agents.
Python+
https://liaoxuefeng.com/books/python/introduction/index.html
中文,免费,零起点,完整示例,基于最新的Python 3版本。
https://www.learnpython.org/
a free interactive Python tutorial for people who want to learn Python, fast.
https://www.youtube.com/watch?v=K5KVEU3aaeQ
Master Python from scratch 🚀 No fluff—just clear, practical coding skills to kickstart your journey!
https://www.youtube.com/watch?v=rfscVS0vtbw
This course will give you a full introduction into all of the core concepts in python.
数据分析+
[英文] Data Analyst Roadmap
https://roadmap.sh/data-analyst
Step by step guide to becoming an Data Analyst in 2025
PyTorch+
https://datawhalechina.github.io/thorough-pytorch/
PyTorch是利用深度学习进行数据科学研究的重要工具,在灵活性、可读性和性能上都具备相当的优势,近年来已成为学术界实现深度学习算法最常用的框架。
https://www.youtube.com/watch?v=V_xro1bcAuA
Learn PyTorch for deep learning in this comprehensive course for beginners. PyTorch is a machine learning framework written in Python.
深度学习+
https://d2l.ai/
Interactive deep learning book with code, math, and discussions.
还有更多 •••