钉钉AI评测工程师

实习兼职钉钉日常项目实习生2026-03-31地点：杭州状态：招聘

扫码手机上打开

任职要求

1、本科及以上学历在读或应届毕业生，计算机科学、人工智能、数据科学、统计学、电子商务、数字经济等相关专业优先 
2、具备较好的编程能力（Python、JAVA、SQL），能编写脚本处理数据和自动化评测流程，有 AI Coding 经验者优先 
…

登录查看完整任职要求

微信扫码，1秒登录

工作职责

悟空事业部是阿里巴巴 ATH 战略下的 AI 原生工作平台，致力于将智能体能力深度融入企业工作流，重新定义 B 端的工作方式。我们正在构建一套评测驱动的智能体自进化闭环——以评测发现问题、反哺优化、验证效果，让 Agent 在持续迭代中越来越可靠。为此，我们需要招募细致严谨、对 AI 技术充满热情的人才加入我们！

【职位描述】 
1、结合业界最佳实践与 B 端业务场景，通过专家设计和数据合成等手段，动态构建高质量评测集 
2、负责评测任务的调度与执行监控，对评测结果进行审核与标注，输出质量报告，推动问题闭环 
3、深入理解高频业务场景（电商、门店管理、资讯情报、数据分析等），针对性地构建专项评测集，设计可量化的评测标准 
4、与产品、算法团队紧密协作，将评测中发现的问题和模式转化为优化方向，推动评测流程的持续改进

📮 投递简历 ✨AI模拟面试

难度：

包括英文材料

学历+

数据科学+

Python+

Java+

SQL+

还有更多 •••

登录查看完整学习资料

相关职位

AI评测工程师

社招测试

1. 与算法、产品密切配合，共同制定视觉AI算法评测标准，设计测试方案与用例，包含感知、运动控制、决策等算法； 2. 熟悉智能硬件产品，专注视觉算法模块测试，构建贴近真实的测试环境，验证AI模型性能与边界能力，协同算法/嵌入式工程师迭代优化； 3. 数据驱动优化，面对不同类型产品，构建对应基于场景的标准化评测数据集，输出算法模型关键性能指标，进行badcase深度分析； 4. 评测体系搭建，建立标准化、可复用的AI模型评测流程与自动化工具链，提升测试覆盖率和效率； 5. 竞品分析：横向竞品AI能力评测，输出差异化分析报告，指导产品技术决策与卖点打造。

更新于 2026-03-24深圳

高级ai评测工程师

社招5年以上测试开发岗

1. AI产品评测体系构建独立负责AI产品（NLP/CV/多模态等）的评测方案设计、指标制定与实施，覆盖准确性、鲁棒性、公平性、用户体验等维度开发自动化评测工具链，构建可复用的评测框架与基线数据集 2. 全生命周期质量保障主导从模型研发到上线的全流程评测，包括但不限于：数据质量评估、模型版本对比、A/B测试、线上效果监控针对大语言模型（LLM等）、生成式AI等前沿方向设计专项评测方案 3. 技术赋能与团队成长主导技术难点攻关（如幻觉检测、提示词对抗测试等），沉淀方法论并培训团队成员搭建团队知识库，定期组织技术分享，提升整体AI评测能力 4. 跨团队协同与算法、产品、研发团队深度协作，推动评测结果驱动产品迭代

更新于 2025-09-11北京

高级ai评测工程师

社招5年以上测试开发岗

1. AI产品评测体系构建：独立负责AI产品（NLP/CV/多模态等）的评测方案设计、指标制定与实施，覆盖准确性、鲁棒性、公平性、用户体验等维度，开发自动化评测工具链，构建可复用的评测框架与基线数据集； 2. 全生命周期质量保障：主导从模型研发到上线的全流程评测，包括但不限于：数据质量评估、模型版本对比、A/B测试、线上效果监控，针对大语言模型（LLM等）、生成式AI等前沿方向设计专项评测方案； 3. 技术赋能与团队成长：主导技术难点攻关（如幻觉检测、提示词对抗测试等），沉淀方法论并培训团队成员，搭建团队知识库，定期组织技术分享，提升整体AI评测能力； 4. 跨团队协同：与算法、产品、研发团队深度协作，推动评测结果驱动产品迭代。

更新于 2025-12-10北京

资深测试开发工程师（稳定性/AI评测方向）-飞书

社招A69343

1、负责飞书AI产品相关的稳定性保障工作，深度参与飞书知识问答业务，能够了解业务完整链路，识别全链路上的稳定性风险，建立稳定性保障体系，推动稳定性建设落地； 2、负责AI算法的评测标准和评测流程制定，包含AI算法的评测体系建设、评测集构建、以及相关评测工程化建设等； 3、负责持续建设相关工具/平台，推动稳定性建设/评测工程化和无人化。

更新于 2025-06-11北京