智能互联阿里控股-大模型评测工程师-code/agentic方向

社招全职3年以上技术类-数据2026-06-06地点：北京 | 杭州状态：招聘

扫码手机上打开

任职要求

1. 对于swe/terminal及业界更加前沿的代码&agentic场景任务能够熟练构建，设计和实现领域标注方向AI训练流程，并不断优化迭代，高效完成标注和内容生产项目
2. 熟悉代码&agentic数据评测流程和标准和工具。有代码&agentic数据处理，质…

登录查看完整任职要求

微信扫码，1秒登录

工作职责

1. 从模型迭代目标出发，设计覆盖全面、层次清晰的评测体系；明确各维度评测的考核重点和难度梯度。
2. 自主构建高质量评测数据集，包括题目设计、标准答案制定、评测逻辑实现；确保题目区分度、公平性和防污染性。
3. 基于Benchmark结果，为模型团队提供清晰的能力雷达图、短板分析和优化优先级建议。
4. 探索更科学的评测指标、更高效的评测方法。

📮 投递简历 ✨AI模拟面试

难度：

包括英文材料

数据分析+

大模型+

算法+

JavaScript+

还有更多 •••

登录查看完整学习资料

相关职位

阿里控股-大模型分析与数据策略专家-杭州/北京

社招4年以上技术类-数据

1.基于模型内部评测和错误案例，系统性分析模型能力边界和短板；建立能力拆解框架（如代码生成可拆分为理解、规划、实现、调试等子能力） 2.主导高质量数据的获取、清洗、增强和验证；探索先进的数据合成技术（如基于强模型的蒸馏、多智能体协作生成）。 3.设计小规模实验验证数据有效性，建立数据-效果关联分析机制，量化数据投入产出比。

更新于 2026-06-06北京|杭州

阿里控股-AI评测专家-AI模型

社招5年以上综合类-公司事务

1、协同团队构建科学高效的AI大模型评测体系 · 协同推进大模型各主要方向（文本、多模态、Coding、智能体等）的评测框架设计，持续优化评测指标、数据集和评测方法； · 识别现有公开评测体系的局限性，探索并建设更真实有效的私有评测指标和数据集； 2、模型能力分析 · 与评测团队紧密协作，根据模型能力和实际需求设计、验证、持续迭代优化评测体系； · 结合评测结果对模型能力进行分析诊断，为管理团队和业务团队提供有价值信息； 3、关注业界前沿发展，持续迭代评测体系 · 持续跟踪全球大模型、Agent领域的技术发展和评测体系变化 · 整合业界和头部厂商先进评测体系经验，转化为内部评测实践，持续迭代评测体系

更新于 2026-03-30杭州

阿里控股-战略规划专家-技术方向

社招3年以上综合类-公司事务

1、基于对产业、行业、市场趋势的洞察，以及对内部各职能的战略思考与判断，制定集团AI战略发展规划，包括方向性策略、顶层目标与设计、顶层规划与路径，持续跟踪和评估行业趋势及竞争对手动态，为集团的重大战略事项提供决策支持。 2、针对Infra层、模型层、应用层（2C&2B）市场进行深入研究，结合内外部环境变化，通过敏锐洞察和深度思考，为业务发展提供建议和指导方案，推动集团各项战略落地执行。 3、在集团战略指导下，负责集团年度工作计划的制定、组织、实施、评估、总结，推进战略目标实现。 4、加分项：对大模型相关技术熟悉，了解预训练、后训练流程，以及各环节优化策略；对大模型效果评测有一定经验；了解国内外相关公司的大模型迭代技术路线。

更新于 2026-04-03杭州

阿里控股-AI评测专家-AI产品

社招5年以上综合类-公司事务

1、设计AI产品评测体系 · 深入理解业务需求和AI应用场景，针对性的设计评测方法、指标和数据集； · 沉淀各类AI软硬件产品的标准化和个性化评测体系 2、产品能力分析 · 与评测团队紧密协作，根据产品能力和实际需求设计和迭代优化评测体系，并实际执行产品评测 · 结合评测结果对产品能力进行分析诊断，为产品迭代提供有价值信息 3、关注业界产品形态发展，持续迭代评测体系 · 持续跟踪全球AI大模型、Agent和应用产品的技术发展，关注评测体系变化 · 整合业界和头部厂商先进评测体系经验，转化为内部评测实践，持续迭代评测体系

更新于 2026-03-29杭州