
智能互联阿里控股-大模型评测工程师-code/agentic方向
任职要求
1. 对于swe/terminal及业界更加前沿的代码&agentic场景任务能够熟练构建,设计和实现领域标注方向AI训练流程,并不断优化迭代,高效完成标注和内容生产项目 2. 熟悉代码&agentic数据评测流程和标准和工具。有代码&agentic数据处理,质…
工作职责
1. 从模型迭代目标出发,设计覆盖全面、层次清晰的评测体系;明确各维度评测的考核重点和难度梯度。 2. 自主构建高质量评测数据集,包括题目设计、标准答案制定、评测逻辑实现;确保题目区分度、公平性和防污染性。 3. 基于Benchmark结果,为模型团队提供清晰的能力雷达图、短板分析和优化优先级建议。 4. 探索更科学的评测指标、更高效的评测方法。

1.基于模型内部评测和错误案例,系统性分析模型能力边界和短板;建立能力拆解框架(如代码生成可拆分为理解、规划、实现、调试等子能力) 2.主导高质量数据的获取、清洗、增强和验证;探索先进的数据合成技术(如基于强模型的蒸馏、多智能体协作生成)。 3.设计小规模实验验证数据有效性,建立数据-效果关联分析机制,量化数据投入产出比。

1、协同团队构建科学高效的AI大模型评测体系 · 协同推进大模型各主要方向(文本、多模态、Coding、智能体等)的评测框架设计,持续优化评测指标、数据集和评测方法; · 识别现有公开评测体系的局限性,探索并建设更真实有效的私有评测指标和数据集; 2、模型能力分析 · 与评测团队紧密协作,根据模型能力和实际需求设计、验证、持续迭代优化评测体系; · 结合评测结果对模型能力进行分析诊断,为管理团队和业务团队提供有价值信息; 3、关注业界前沿发展,持续迭代评测体系 · 持续跟踪全球大模型、Agent领域的技术发展和评测体系变化 · 整合业界和头部厂商先进评测体系经验,转化为内部评测实践,持续迭代评测体系

1、基于对产业、行业、市场趋势的洞察,以及对内部各职能的战略思考与判断,制定集团AI战略发展规划,包括方向性策略、顶层目标与设计、顶层规划与路径,持续跟踪和评估行业趋势及竞争对手动态,为集团的重大战略事项提供决策支持。 2、针对Infra层、模型层、应用层(2C&2B)市场进行深入研究,结合内外部环境变化,通过敏锐洞察和深度思考,为业务发展提供建议和指导方案,推动集团各项战略落地执行。 3、在集团战略指导下,负责集团年度工作计划的制定、组织、实施、评估、总结,推进战略目标实现。 4、加分项:对大模型相关技术熟悉,了解预训练、后训练流程,以及各环节优化策略;对大模型效果评测有一定经验;了解国内外相关公司的大模型迭代技术路线。