logo of antgroup

蚂蚁金服蚂蚁集团-垂类模型评测科学家-北京/杭州/上海【百灵专项】

社招全职3年以上技术类-算法地点:北京 | 上海 | 杭州状态:招聘

任职要求


● 计算机科学、统计学、金融或相关专业背景,具备 NLP大模型评测系统搭建经验。
● 熟悉主流评测框架及指标设计,掌握 Model-based Eval、众包评估质量控制及自动化测试技术。
● 具备构建 Agent 动态评测环境(Sandbox/Simulation)的能力,能够设计针对工具调用(Tool Use)与长链路推理的量化评估方案。
● 具备扎实的工程实现能力,熟悉 Python 及主流深度学习框架,能够处理大规模评测数据的清洗与分析。
● 具备良好的数据敏感度,能够通过 Bad Case 分析反推模型缺陷,具备优秀的工程素养。
● 具备较强的团队合作和沟通能力,能够与算法团队紧密配合,提供客观、可执行的优化建议。

加分项
● Curiosity-…
登录查看完整任职要求
微信扫码,1秒登录

工作职责


1. 定义垂类行业大模型的“黄金标准”,构建涵盖合规性、事实性、逻辑推理及安全性的多维度评测体系。
2. 负责搭建自动化评测平台与 Model-based Evaluation(以模评模)流水线,针对金融研报分析、投资决策、风险控制等复杂场景建设高难度测试集(Hard Case)。
3. 设计针对Agentic AI的动态评估框架,量化智能体在工具调用、多步决策及环境交互中的成功率与鲁棒性,通过精准的评测反馈驱动预训练与后训练的数据/策略迭代,形成“训练-评测-优化”的高效闭环。
包括英文材料
NLP+
大模型+
AI agent+
还有更多 •••
相关职位

logo of antgroup
社招3年以上技术类-算法

作为语料科学家,你将负责构建和优化驱动垂类基座大模型的核心“燃料”。你不仅需要深厚的数据工程能力,更需具备极佳的数据审美,通过系统化、算法化的手段,将海量非结构化金融信息转化为具备严谨逻辑、专业深度与对齐规范的高质量语料,全方位提升模型在金融场景下的逻辑推理、合规对话与复杂决策能力。 核心职责: 1. 语料体系全生命周期优化: 负责大模型各阶段(Pre-training, SFT, RLHF)语料的构建与迭代。通过体系化扩展、高精度清洗、去重及去噪,定义并迭代金融领域的“高质量数据”标准。 2. 关键能力专项驱动: 针对性优化模型的逻辑推理、多指标计算、财报分析及代码编写能力。设计并实施数据配比实验(Data Mixture),探索知识密度与模型效果的缩放定律(Scaling Laws)。 3. 合成数据与 Agentic 仿真: 研发前沿的合成数据(Synthetic Data)技术,利用 Self-Instruct、Agentic-RL 等手段合成高质量的多轮决策轨迹、长文档推理链(CoT),解决金融场景下的长尾数据稀缺问题。 4. 数据标注与 RLHF 反馈机制:制定涵盖金融专业性、逻辑严密性及合规性的多维度标注方案,构建高质量的偏好数据集,通过人类反馈引导模型符合行业从业者的价值观与专业审美。 5. 基准测试 (Benchmark) 构建: 针对性构建涵盖如金融资格考试、财报解析、风险识别、投研策略等维度的自动化及人工评测基准。通过 Benchmark 结果精准反查数据短板,实现“以测促练”的闭环迭代。

更新于 2026-01-21北京|上海|杭州
logo of antgroup
社招3年以上技术类-算法

负责蚂蚁集团语言大模型的评测算法研究与应用,搭建业界领先的大模型评测体系,精准全面地评估大模型的能力。基于AIGC等技术建设高质量评测数据集,与业界公开评测集有机结合,深入大模型预训练、后训练、深度思考等各个阶段,利用大模型等技术提高评测效率和准确性,通过高效高质量评测提升语言大模型、垂域大模型的能力和用户体验。

更新于 2026-01-14北京|杭州
logo of meituan
社招3-5年核心本地商业-美

负责对服体大模型构建的通用垂类应用进行数据生产交付和效果质量评估;通过与产品研发团队的紧密合作,制定评估标准和体系,准确分析评估效果,为应用的优化和改进提供支持,以提升应用的性能、用户体验和市场竞争力 应用效果与质量评估: 1、负责评估基于服体大模型所构建的通用垂类应用的效果和质量,包括但不限于语言理解准确性、生成内容的合理性、逻辑连贯性、知识准确性等方面 2、参与设计测试数据集,涵盖不同场景、用户需求和输入条件,以确保应用在各种情况下的稳定性和可用性 3、参与收集和分析用户反馈数据,结合实际使用情况,对应用的性能和用户体验进行综合评估 评估标准与体系建设: 1、理解业务需求和产品目标,与产品研发团队密切沟通和协作,负责制定详细、明确的评估标准和指标体系 2、理解评估数据的收集、整理和分析流程,确保评估数据的可用性和置信度,为评估体系的持续改进提供数据支持 与产品、算法、运营、业务方保持协同,制定业务规划、目标管理以及团队人员管理工作,共同关注团队效果数据和目标达成,为产品研发团队提供决策依据和改进方向,共同优化模型及agent体验效果 设计和实现大语言模型方向AI训练流程,并不断优化迭代,带领团队高效完成标注和内容生产项目同时负责管理标注团队,积极推动标注工具、组织流程及交付流程优化,提升并完善团队的交付能力

更新于 2025-05-04北京|上海
logo of kuaishou
实习D11908

1、大模型理解方向:探索多模态大模型在视频、图像、文本内容的理解能力,构建场景化模型,提升风险识别准召率; 研究视频/图像拒绝理由的可解释性归因方法,推动人机协同审核应用落地; 构建大模型在风险防控、开户业务等场景的垂类内容理解能力,优化模型对抗性及迭代效率; 开发视频、图文向量化表征技术,提升跨模态检索能力(如视频索引、图文相似性检索); 2、大模型生成方向:研究多模态大模型(图像/视频)生成与修复技术,探索可控内容生成方法,提升风险素材过审率; 构建大模型训练、推理、评测的标准化流程,推动平台化能力建设与自动化迭代; 3、大模型推理部署方向:优化大模型推理框架(低延迟、高吞吐),研究量化、剪枝、动态调度等加速技术; 推动多模态大模型在工业级场景的轻量化部署落地。 *根据研究方向选择以上至少一个领域深入参与。

更新于 2025-10-21北京