logo of aligenie

智能互联阿里控股-大模型评测工程师-code/agentic方向

社招全职3年以上技术类-数据地点:北京 | 杭州状态:招聘

任职要求


1. 对于swe/terminal及业界更加前沿的代码&agentic场景任务能够熟练构建,设计和实现领域标注方向AI训练流程,并不断优化迭代,高效完成标注和内容生产项目
2. 熟悉代码&agentic数据评测流程和标准和工具。有代码&agentic数据处理,质…
登录查看完整任职要求
微信扫码,1秒登录

工作职责


1. 从模型迭代目标出发,设计覆盖全面、层次清晰的评测体系;明确各维度评测的考核重点和难度梯度。
2. 自主构建高质量评测数据集,包括题目设计、标准答案制定、评测逻辑实现;确保题目区分度、公平性和防污染性。
3. 基于Benchmark结果,为模型团队提供清晰的能力雷达图、短板分析和优化优先级建议。
4. 探索更科学的评测指标、更高效的评测方法。
包括英文材料
数据分析+
大模型+
算法+
JavaScript+
还有更多 •••
相关职位

logo of aligenie
社招4年以上技术类-数据

1.基于模型内部评测和错误案例,系统性分析模型能力边界和短板;建立能力拆解框架(如代码生成可拆分为理解、规划、实现、调试等子能力) 2.主导高质量数据的获取、清洗、增强和验证;探索先进的数据合成技术(如基于强模型的蒸馏、多智能体协作生成)。 3.设计小规模实验验证数据有效性,建立数据-效果关联分析机制,量化数据投入产出比。

更新于 2026-06-06北京|杭州
logo of aligenie
社招5年以上综合类-公司事务

1、协同团队构建科学高效的AI大模型评测体系 · 协同推进大模型各主要方向(文本、多模态、Coding、智能体等)的评测框架设计,持续优化评测指标、数据集和评测方法; · 识别现有公开评测体系的局限性,探索并建设更真实有效的私有评测指标和数据集; 2、模型能力分析 · 与评测团队紧密协作,根据模型能力和实际需求设计、验证、持续迭代优化评测体系; · 结合评测结果对模型能力进行分析诊断,为管理团队和业务团队提供有价值信息; 3、关注业界前沿发展,持续迭代评测体系 · 持续跟踪全球大模型、Agent领域的技术发展和评测体系变化 · 整合业界和头部厂商先进评测体系经验,转化为内部评测实践,持续迭代评测体系

更新于 2026-03-30杭州
logo of aligenie
社招3年以上综合类-公司事务

1、基于对产业、行业、市场趋势的洞察,以及对内部各职能的战略思考与判断,制定集团AI战略发展规划,包括方向性策略、顶层目标与设计、顶层规划与路径,持续跟踪和评估行业趋势及竞争对手动态,为集团的重大战略事项提供决策支持。 2、针对Infra层、模型层、应用层(2C&2B)市场进行深入研究,结合内外部环境变化,通过敏锐洞察和深度思考,为业务发展提供建议和指导方案,推动集团各项战略落地执行。 3、在集团战略指导下,负责集团年度工作计划的制定、组织、实施、评估、总结,推进战略目标实现。 4、加分项:对大模型相关技术熟悉,了解预训练、后训练流程,以及各环节优化策略;对大模型效果评测有一定经验;了解国内外相关公司的大模型迭代技术路线。

更新于 2026-04-03杭州
logo of aligenie
社招5年以上综合类-公司事务

1、设计AI产品评测体系 · 深入理解业务需求和AI应用场景,针对性的设计评测方法、指标和数据集; · 沉淀各类AI软硬件产品的标准化和个性化评测体系 2、产品能力分析 · 与评测团队紧密协作,根据产品能力和实际需求设计和迭代优化评测体系,并实际执行产品评测 · 结合评测结果对产品能力进行分析诊断,为产品迭代提供有价值信息 3、关注业界产品形态发展,持续迭代评测体系 · 持续跟踪全球AI大模型、Agent和应用产品的技术发展,关注评测体系变化 · 整合业界和头部厂商先进评测体系经验,转化为内部评测实践,持续迭代评测体系

更新于 2026-03-29杭州