钉钉悟空事业部-大模型评测-工程师 / 专家
任职要求
必备条件 1、学历背景:计算机科学、人工智能、自然语言处理、机器学习或相关专业硕士及以上学历。 2、工作经验:3年以上NLP/LLM相关研发或评测经验,有大规模模型评测体系建设经验者优先。 3、技术基础: 1)扎实的NLP与深度学习基础,深入理解Transformer架构、预训练/微调/RLHF等技术范式。 2)熟悉主流LLM推理框架(vLLM、SGLang、Ollama等)及模型量化部署方案。 3)熟练掌握Python,具备良好的工程能力,能独立搭建评测流水线与数据处理管线。 4、评测经验: 1)熟悉主流LLM评测基准(MMLU、GSM8K、HumanEval、MT-Bench、AlpacaEval、Chatbot Arena等)。 2)有Agent评测实战经验,熟悉SWE-bench、WebArena、GAIA、AgentBench、τ-bench等至少2个Agent评测框架。 3)理解LLM-as-a-Judge方法论,有使用强模型进行自动化评分的实践经验。 5、业务理解:能将模糊的业务需求转化为清晰、可量化、可执行的评测方案,具备从真实业务中抽象评测任务的能…
工作职责
我们正在寻找一位兼具技术深度与业务洞察力的大模型评测工程师,加入核心AI评测团队。你将主导构建面向真实业务场景的多目标评测体系,基于最新的Agent框架(如SWE-bench、WebArena、GAIA、AgentBench等)对LLM及多模态大模型进行系统性能力评估,并推动评测流程的AI自动化——让评测本身也由AI驱动。你的工作将直接影响模型选型、迭代方向与产品上线决策,是连接算法研发与业务落地的关键枢纽。 一、评测体系设计与方法论建设 设计并持续迭代公司级大模型评测体系,覆盖纯文本LLM(如Qwen、DeepSeek、Claude、GPT系列)与多模态大模型(图文理解、视频分析、音频交互等),建立"指标-方法-数据-工具"四位一体的评估框架。 跟踪国际前沿评测范式:从传统静态Benchmark(MMLU、GSM8K、HumanEval)到动态Agent评测(SWE-bench Verified、WebArena、GAIA、OSWorld),制定与公司业务对齐的评测方法论。 针对Agent场景(多步推理、工具调用、代码生成与执行、浏览器自动化、多智能体协作等),设计多维能力分层的评测方案,覆盖任务完成率、轨迹质量、工具选择准确率、执行效率与成本等关键指标。 二、真实业务驱动的评测数据集构建 深入理解公司核心业务场景(如智能客服、代码助手、文档理解、数据分析、办公自动化等),从中抽象出可量化的评测任务,设计贴近真实使用情况的评测数据集。 主导评测数据集的标注规范制定与质量控制,综合运用人工标注、模型辅助标注与主动学习策略,确保数据集的高质量与持续演进。 建立数据集的版本管理、难度分级与防泄漏机制,避免训练数据污染评测结果。 三、基于Agent框架的多目标任务评测执行 搭建基于主流Agent框架(LangChain/LlamaIndex、AutoGen、CrewAI、OpenAI Agents SDK、MCP协议等)的自动化评测流水线,支持大规模、可复现的模型能力基准测试。 执行多目标联合评测:在单次评测任务中同时考察模型在准确性、鲁棒性、安全性、推理效率、幻觉率、指令遵循度、多语言能力等维度的表现,输出多维度雷达分析。 针对多模态Agent场景,设计跨模态联合评测方案,评估模型在图文混合输入、视频理解与操作、语音交互闭环等复杂任务中的综合表现。 四、AI驱动的评测自动化与报告生成 探索并落地"LLM-as-a-Judge"范式:利用强模型(如Claude Opus、GPT-4o等)作为自动化评判器,结合结构化评分Rubric,实现开放式生成任务的高质量自动打分。 构建AI原生的评测报告生成管线:从原始评测日志到可视化分析报告全流程自动化,包括KPI仪表盘、能力雷达图、回归对比、错误案例分析、改进建议等。 建立CI/CD集成的评测门禁:将评测流程嵌入模型迭代流水线,实现每次模型更新后的自动化回归评测与能力变化预警。 五、跨团队协作与技术输出 与算法团队紧密协作,根据评测结果给出模型优化建议,参与模型选型与版本发布的决策评审。 与产品团队对齐业务需求,将产品侧的定性反馈转化为可量化的评测指标与测试用例。 定期输出行业模型能力竞品分析报告与技术白皮书,建立公司在模型评测领域的技术影响力。
• 负责悟空电商AI架构的整体规划与落地。聚焦于复杂多智能体系统(Multi-Agent System)、通用Skill生态与可视化工作流(Workflow)平台的顶层设计,将AI能力转化为可复用的中台组件和服务。 • 负责电商AI服务端高并发、低延迟、高可用的技术体系搭建。攻克在线推理延迟优化、大模型Token成本控制、长文本/多模态数据处理等底座工程难题,保障大促等极端场景下的业务稳定性。 • 深度参与AI产品从0到1再到规模化推广的全生命周期。协同算法、产品与运营团队,将前沿AI技术转化为能切实提升商家ROI、降低运营成本的商业化解决方案。 • 具备优秀的全栈全局观,能够主导或指导团队快速构建AI能力敏捷验证工具(如内部原型、评测看板等),加速AI业务的实验与迭代效率。 • 持续跟进大模型领域前沿进展(如MCP协议、最新多模态、Agentic Workflow等),结合电商场景进行技术储备;指导初中级工程师,提升团队整体在AI工程化领域的认知与作战能力。

• 负责悟空电商AI架构的整体规划与落地。聚焦于复杂多智能体系统(Multi-Agent System)、通用Skill生态与可视化工作流(Workflow)平台的顶层设计,将AI能力转化为可复用的中台组件和服务。 • 负责电商AI服务端高并发、低延迟、高可用的技术体系搭建。攻克在线推理延迟优化、大模型Token成本控制、长文本/多模态数据处理等底座工程难题,保障大促等极端场景下的业务稳定性。 • 深度参与AI产品从0到1再到规模化推广的全生命周期。协同算法、产品与运营团队,将前沿AI技术转化为能切实提升商家ROI、降低运营成本的商业化解决方案。 • 具备优秀的全栈全局观,能够主导或指导团队快速构建AI能力敏捷验证工具(如内部原型、评测看板等),加速AI业务的实验与迭代效率。 • 持续跟进大模型领域前沿进展(如MCP协议、最新多模态、Agentic Workflow等),结合电商场景进行技术储备;指导初中级工程师,提升团队整体在AI工程化领域的认知与作战能力。
1、团队愿景:在大模型进入深水区的今天,真正拉开差距的,不再只是模型结构,而是数据的质量、成本与评测方法。 我们对标 Scale AI,正在建设主权模型时代的 AI 数据基础设施:以最低的总体成本,持续为模型训练与迭代提供最高质量的数据、数据配方与评测体系。 在这里,你将参与决定用什么样的数据能真正塑造模型能力,把分散、复杂、真实的业务数据,转化为可 规模、可验证、可复用的模型竞争力,参与定义 AI 时代最底层、也最关键的基础设施。 2、 主导多模态模型训练数据的生产项目:作为算法与标注资源的“连接器”,将抽象的模型需求转化为可执行的标注规则和验收标准。管理内外部标注团队(包括外包/众包资源),把控项目进度与成本,确保大规模数据交付的准时率与合格率。 3、流程设计与工程优化:设计 SFT、 RLHF 等数据流转机制,搭建高效的 Workflow。协同多方团队,优化标注效率和质量。 4、负责构建从数据寻源、抓取、到复杂异构数据解析的全流程系统,解决多模态数据的清洗与结构化难题。 5、利用模型生成数据等方式,构建自动化数据扩充流水线,降低对人工标注的依赖,突破数据规模瓶颈。 6、建立数据质量评估体系,系统性分析标注数据的质量分布特征,提升标注效率。