logo of antgroup

蚂蚁金服蚂蚁集团-垂类模型评测科学家-北京/杭州/上海【百灵专项】

社招全职3年以上技术类-算法地点:北京 | 上海 | 杭州状态:招聘

任职要求


● 计算机科学、统计学、金融或相关专业背景,具备 NLP大模型评测系统搭建经验。
● 熟悉主流评测框架及指标设计,掌握 Model-based Eval、众包评估质量控制及自动化测试技术。
● 具备构建 Agent 动态评测环境(Sandbox/Simulation)的能力,能够设计针对工具调用(Tool Use)与长链路推理的量化评估方案。
● 具备扎实的工程实现能力,熟悉 Python 及主流深度学习框架,能够处理大规模评测数据的清洗与分析。
● 具备良好的数据敏感度,能够通过 Bad Case 分析反推模型缺陷,具备优秀的工程素养。
● 具备较强的团队合作和沟通能力,能够与算法团队紧密配合,提供客观、可执行的优化建议。

加分项
● Curiosity-…
登录查看完整任职要求
微信扫码,1秒登录

工作职责


1. 定义垂类行业大模型的“黄金标准”,构建涵盖合规性、事实性、逻辑推理及安全性的多维度评测体系。
2. 负责搭建自动化评测平台与 Model-based Evaluation(以模评模)流水线,针对金融研报分析、投资决策、风险控制等复杂场景建设高难度测试集(Hard Case)。
3. 设计针对Agentic AI的动态评估框架,量化智能体在工具调用、多步决策及环境交互中的成功率与鲁棒性,通过精准的评测反馈驱动预训练与后训练的数据/策略迭代,形成“训练-评测-优化”的高效闭环。
包括英文材料
NLP+
大模型+
AI agent+
还有更多 •••
相关职位

logo of antgroup
社招3年以上技术类-算法

作为语料科学家,你将负责构建和优化驱动垂类基座大模型的核心“燃料”。你不仅需要深厚的数据工程能力,更需具备极佳的数据审美,通过系统化、算法化的手段,将海量非结构化金融信息转化为具备严谨逻辑、专业深度与对齐规范的高质量语料,全方位提升模型在金融场景下的逻辑推理、合规对话与复杂决策能力。 核心职责: 1. 语料体系全生命周期优化: 负责大模型各阶段(Pre-training, SFT, RLHF)语料的构建与迭代。通过体系化扩展、高精度清洗、去重及去噪,定义并迭代金融领域的“高质量数据”标准。 2. 关键能力专项驱动: 针对性优化模型的逻辑推理、多指标计算、财报分析及代码编写能力。设计并实施数据配比实验(Data Mixture),探索知识密度与模型效果的缩放定律(Scaling Laws)。 3. 合成数据与 Agentic 仿真: 研发前沿的合成数据(Synthetic Data)技术,利用 Self-Instruct、Agentic-RL 等手段合成高质量的多轮决策轨迹、长文档推理链(CoT),解决金融场景下的长尾数据稀缺问题。 4. 数据标注与 RLHF 反馈机制:制定涵盖金融专业性、逻辑严密性及合规性的多维度标注方案,构建高质量的偏好数据集,通过人类反馈引导模型符合行业从业者的价值观与专业审美。 5. 基准测试 (Benchmark) 构建: 针对性构建涵盖如金融资格考试、财报解析、风险识别、投研策略等维度的自动化及人工评测基准。通过 Benchmark 结果精准反查数据短板,实现“以测促练”的闭环迭代。

更新于 2026-01-21北京|上海|杭州
logo of transsion
社招5年以上

1、深度洞察 C 端用户需求,构建 AI 产品质量评测体系,科学制定评测指标与标准,确保评测项目高效执行,输出专业详尽的评测报告,精准捕捉并提炼用户体验痛点,持续推动 C 端产品用户体验升级。 2、主导大模型在 C 端产品落地的效果评估工作,针对文生文、多模态理解与生成等核心能力展开全面评测,深度分析不同大模型在多元用户需求场景下的性能表现,为大模型的精准落地提供坚实数据支撑。 3、聚焦 AI 产品垂类技能,对算法效果进行迭代评测,通过深度数据分析挖掘优化方向,协同算法团队推进算法优化,实现产品核心功能的持续迭代与性能提升。 4、构建自动化评测方案,紧跟模型能力发展趋势,积极探索全模态评测技术,推动评测体系的智能化、高效化升级,提升整体评测效能。

更新于 2025-06-03深圳
logo of bytedance
社招A66397B

1、调研公开评测方法,并将公开评测集集成至内部平台; 2、深度配合垂类业务探索智能高效的大模型应用效能自动化评估方案,主导开发评估体系/工具; 3、制定大模型评估在应用方向的评估标准,主导评估体系构建,主导大模型评估工作。

更新于 2025-10-14北京
logo of deepseek
社招DeepSeek

1.策略设计与迭代: 深度参与DeepSeek模型在搜索、内容创作(创意/实用写作)、多模态、Agent等场景的应用。通过数据分析与用户行为洞察,制定模型优化策略,定义数据生产标准(SFT/RL),驱动模型效果(如准确性、有用性、安全性)持续提升; 2.评测体系构建: 设计科学、多维度的模型评测体系。主导构建内部测试集,制定人工评估与自动化评估标准,量化模型能力边界,对模型上线后的核心指标负责; 3.高质量数据建设: 负责后训练阶段的高质量语料挖掘与构建。针对特定领域(如医学、法律、小说创作)建立专家级的数据标注,确保训练数据的高质量供给。

更新于 2026-03-24北京|杭州