安克创新AI评测工程师
任职要求
1. 教育背景:人工智能、计算机科学、电子工程、自动化、机器人学或相关专业本科及以上学历; 2. 经验要求:有实际视觉项目/竞赛经验,了解大模型推理/微调相关理论者优先; 3. 技能要求:熟练掌…
工作职责
1. 与算法、产品密切配合,共同制定视觉AI算法评测标准,设计测试方案与用例,包含感知、运动控制、决策等算法; 2. 熟悉智能硬件产品,专注视觉算法模块测试,构建贴近真实的测试环境,验证AI模型性能与边界能力,协同算法/嵌入式工程师迭代优化; 3. 数据驱动优化,面对不同类型产品,构建对应基于场景的标准化评测数据集,输出算法模型关键性能指标,进行badcase深度分析; 4. 评测体系搭建,建立标准化、可复用的AI模型评测流程与自动化工具链,提升测试覆盖率和效率; 5. 竞品分析:横向竞品AI能力评测,输出差异化分析报告,指导产品技术决策与卖点打造。
悟空事业部是阿里巴巴 ATH 战略下的 AI 原生工作平台,致力于将智能体能力深度融入企业工作流,重新定义 B 端的工作方式。我们正在构建一套评测驱动的智能体自进化闭环——以评测发现问题、反哺优化、验证效果,让 Agent 在持续迭代中越来越可靠。为此,我们需要招募细致严谨、对 AI 技术充满热情的人才加入我们! 【职位描述】 1、结合业界最佳实践与 B 端业务场景,通过专家设计和数据合成等手段,动态构建高质量评测集 2、负责评测任务的调度与执行监控,对评测结果进行审核与标注,输出质量报告,推动问题闭环 3、深入理解高频业务场景(电商、门店管理、资讯情报、数据分析等),针对性地构建专项评测集,设计可量化的评测标准 4、与产品、算法团队紧密协作,将评测中发现的问题和模式转化为优化方向,推动评测流程的持续改进
我们希望你参与 1. 建设可持续演进的大模型评测体系; 2. 提升评测自动化程度与评测效率; 3. 推动评测数据、评测框架与评测方法持续迭代; 4. 用系统化评测驱动模型能力提升。 1. 负责大语言模型(LLM)评测体系建设,包括评测方案设计、评测指标定义、评测流程标准化等,建立可持续演进的评测能力体系; 2. 负责评测框架开发与维护,建设自动化、可扩展、高可靠的评测系统,提高评测效率与覆盖度; 3. 负责 Public Benchmark 与 In-house Benchmark 的建设与维护,包括评测集构建、数据清洗、版本管理、持续迭代与优化; 4. 根据模型迭代重点与业务需求,持续补充评测维度,动态优化评测集结构,提升评测集有效性与区分度; 5. 深入分析模型能力边界与问题分布,识别模型优势、短板与退化风险,建立问题发现与质量拦截机制; 6. 跟踪行业模型发展趋势,对主流模型进行横向评测与能力分析,量化模型能力变化与行业水平; 7. 参与模型训练与迭代过程中的评测建设,支撑模型研发闭环。
我们希望你参与 1. 建设可持续演进的大模型评测体系; 2. 提升评测自动化程度与评测效率; 3. 推动评测数据、评测框架与评测方法持续迭代; 4. 用系统化评测驱动模型能力提升。 1. 负责大语言模型(LLM)评测体系建设,包括评测方案设计、评测指标定义、评测流程标准化等,建立可持续演进的评测能力体系; 2. 负责评测框架开发与维护,建设自动化、可扩展、高可靠的评测系统,提高评测效率与覆盖度; 3. 负责 Public Benchmark 与 In-house Benchmark 的建设与维护,包括评测集构建、数据清洗、版本管理、持续迭代与优化; 4. 根据模型迭代重点与业务需求,持续补充评测维度,动态优化评测集结构,提升评测集有效性与区分度; 5. 深入分析模型能力边界与问题分布,识别模型优势、短板与退化风险,建立问题发现与质量拦截机制; 6. 跟踪行业模型发展趋势,对主流模型进行横向评测与能力分析,量化模型能力变化与行业水平; 7. 参与模型训练与迭代过程中的评测建设,支撑模型研发闭环。
1. AI产品评测体系构建 独立负责AI产品(NLP/CV/多模态等)的评测方案设计、指标制定与实施,覆盖准确性、鲁棒性、公平性、用户体验等维度 开发自动化评测工具链,构建可复用的评测框架与基线数据集 2. 全生命周期质量保障 主导从模型研发到上线的全流程评测,包括但不限于:数据质量评估、模型版本对比、A/B测试、线上效果监控 针对大语言模型(LLM等)、生成式AI等前沿方向设计专项评测方案 3. 技术赋能与团队成长 主导技术难点攻关(如幻觉检测、提示词对抗测试等),沉淀方法论并培训团队成员 搭建团队知识库,定期组织技术分享,提升整体AI评测能力 4. 跨团队协同 与算法、产品、研发团队深度协作,推动评测结果驱动产品迭代