钉钉悟空事业部-大模型评测-工程师 / 专家

社招全职3年以上技术类-开发2026-07-02地点：杭州状态：招聘

扫码手机上打开

任职要求

必备条件
1、学历背景：计算机科学、人工智能、自然语言处理、机器学习或相关专业硕士及以上学历。
2、工作经验：3年以上NLP/LLM相关研发或评测经验，有大规模模型评测体系建设经验者优先。
3、技术基础：
1）扎实的NLP与深度学习基础，深入理解Transformer架构、预训练/微调/RLHF等技术范式。
2）熟悉主流LLM推理框架（vLLM、SGLang、Ollama等）及模型量化部署方案。
3）熟练掌握Python，具备良好的工程能力，能独立搭建评测流水线与数据处理管线。
4、评测经验：
1）熟悉主流LLM评测基准（MMLU、GSM8K、HumanEval、MT-Bench、AlpacaEval、Chatbot Arena等）。
2）有Agent评测实战经验，熟悉SWE-bench、WebArena、GAIA、AgentBench、τ-bench等至少2个Agent评测框架。
3）理解LLM-as-a-Judge方法论，有使用强模型进行自动化评分的实践经验。
5、业务理解：能将模糊的业务需求转化为清晰、可量化、可执行的评测方案，具备从真实业务中抽象评测任务的能…

登录查看完整任职要求

微信扫码，1秒登录

工作职责

我们正在寻找一位兼具技术深度与业务洞察力的大模型评测工程师，加入核心AI评测团队。你将主导构建面向真实业务场景的多目标评测体系，基于最新的Agent框架（如SWE-bench、WebArena、GAIA、AgentBench等）对LLM及多模态大模型进行系统性能力评估，并推动评测流程的AI自动化——让评测本身也由AI驱动。你的工作将直接影响模型选型、迭代方向与产品上线决策，是连接算法研发与业务落地的关键枢纽。

一、评测体系设计与方法论建设
设计并持续迭代公司级大模型评测体系，覆盖纯文本LLM（如Qwen、DeepSeek、Claude、GPT系列）与多模态大模型（图文理解、视频分析、音频交互等），建立"指标-方法-数据-工具"四位一体的评估框架。
跟踪国际前沿评测范式：从传统静态Benchmark（MMLU、GSM8K、HumanEval）到动态Agent评测（SWE-bench Verified、WebArena、GAIA、OSWorld），制定与公司业务对齐的评测方法论。
针对Agent场景（多步推理、工具调用、代码生成与执行、浏览器自动化、多智能体协作等），设计多维能力分层的评测方案，覆盖任务完成率、轨迹质量、工具选择准确率、执行效率与成本等关键指标。

二、真实业务驱动的评测数据集构建
深入理解公司核心业务场景（如智能客服、代码助手、文档理解、数据分析、办公自动化等），从中抽象出可量化的评测任务，设计贴近真实使用情况的评测数据集。
主导评测数据集的标注规范制定与质量控制，综合运用人工标注、模型辅助标注与主动学习策略，确保数据集的高质量与持续演进。
建立数据集的版本管理、难度分级与防泄漏机制，避免训练数据污染评测结果。

三、基于Agent框架的多目标任务评测执行
搭建基于主流Agent框架（LangChain/LlamaIndex、AutoGen、CrewAI、OpenAI Agents SDK、MCP协议等）的自动化评测流水线，支持大规模、可复现的模型能力基准测试。
执行多目标联合评测：在单次评测任务中同时考察模型在准确性、鲁棒性、安全性、推理效率、幻觉率、指令遵循度、多语言能力等维度的表现，输出多维度雷达分析。
针对多模态Agent场景，设计跨模态联合评测方案，评估模型在图文混合输入、视频理解与操作、语音交互闭环等复杂任务中的综合表现。

四、AI驱动的评测自动化与报告生成
探索并落地"LLM-as-a-Judge"范式：利用强模型（如Claude Opus、GPT-4o等）作为自动化评判器，结合结构化评分Rubric，实现开放式生成任务的高质量自动打分。
构建AI原生的评测报告生成管线：从原始评测日志到可视化分析报告全流程自动化，包括KPI仪表盘、能力雷达图、回归对比、错误案例分析、改进建议等。
建立CI/CD集成的评测门禁：将评测流程嵌入模型迭代流水线，实现每次模型更新后的自动化回归评测与能力变化预警。

五、跨团队协作与技术输出
与算法团队紧密协作，根据评测结果给出模型优化建议，参与模型选型与版本发布的决策评审。
与产品团队对齐业务需求，将产品侧的定性反馈转化为可量化的评测指标与测试用例。
定期输出行业模型能力竞品分析报告与技术白皮书，建立公司在模型评测领域的技术影响力。

📮 投递简历 ✨AI模拟面试

难度：

包括英文材料

学历+

NLP+

机器学习+

大模型+

深度学习+

Transformer+

RLHF+

vLLM+

SGLang+

Ollama+

还有更多 •••

登录查看完整学习资料

相关职位

悟空事业部-大模型数据平台专家 / 架构师-(AI Data Infrastructure)

社招5年以上技术类-开发

1、团队愿景：在大模型进入深水区的今天，真正拉开差距的，不再只是模型结构，而是数据的质量、成本与评测方法。我们对标 Scale AI，正在建设主权模型时代的 AI 数据基础设施：以最低的总体成本，持续为模型训练与迭代提供最高质量的数据、数据配方与评测体系。在这里，你将参与决定用什么样的数据能真正塑造模型能力，把分散、复杂、真实的业务数据，转化为可规模、可验证、可复用的模型竞争力，参与定义 AI 时代最底层、也最关键的基础设施。 2、主导多模态模型训练数据的生产项目：作为算法与标注资源的“连接器”，将抽象的模型需求转化为可执行的标注规则和验收标准。管理内外部标注团队（包括外包/众包资源），把控项目进度与成本，确保大规模数据交付的准时率与合格率。 3、流程设计与工程优化：设计 SFT、 RLHF 等数据流转机制，搭建高效的 Workflow。协同多方团队，优化标注效率和质量。 4、负责构建从数据寻源、抓取、到复杂异构数据解析的全流程系统，解决多模态数据的清洗与结构化难题。 5、利用模型生成数据等方式，构建自动化数据扩充流水线，降低对人工标注的依赖，突破数据规模瓶颈。 6、建立数据质量评估体系，系统性分析标注数据的质量分布特征，提升标注效率。

更新于 2026-06-05杭州

悟空事业部-大模型算法工程师-AI搜索

社招3年以上技术类-算法

1. 负责搜索场景LLM的研发，深入分析客户需求，清洗和构建各种微调数据，通过continue pretrain、SFT、RLHF等微调技术训练专属大模型； 2. 基于场景探索大小模型协同的最佳实践，打造普惠方案，提升场景业务效果及用户体验； 3. 负责基于LLM的Agent、CoT、RAG等相关技术研发，以及前沿技术跟进与创新。

更新于 2026-06-29杭州

悟空事业部-大模型应用开发工程师-AI搜索

社招3年以上技术类-开发

1. 负责钉钉AI业务的服务端系统的架构及研发，钉钉AI业务高速增长，团队机会多来来发展空间大； 2. 主导业务方梳理业务需求，提供系统架构设计方案，并能根据方案推进研发工作开展，对现存或未来系统进行宏观的思考，规划形成统一的框架、平台、体系或组件。

更新于 2026-06-22杭州

悟空事业部-产品经理（大客户）-钉钉

社招3年以上产品类-商业型

1、熟悉协同办公领域，懂客户，懂市场，有竞对视角，能够独立完成产品前后端的规划 2、有AI的产品经验，熟悉市场主流的AI工具，具备用AI来设计产品的能力 3、懂运营，对市场敏感，协同PR，营销部门，完成产品的自我运营驱动增长 4、有服务大客户的经验，对行业有自己的见解和洞察，具备设计行业方案的能力 5、熟悉SaaS商业设计，从产品到商品的组合包装，数据驱动商业策略设计

更新于 2026-07-01杭州