小米AI测试专家
任职要求
1、本科及以上学历,计算机、数学、统计学、模式识别、图像处理等相关方向; 2、熟练掌握至少一种编程语言(如 Python、Java 等),具备良好的代码编写与调试能力,能够独立开发自动化测试脚本与工具。 3、对当前AIGC大模型算法评估有成体系的方法论,主客观评价方法都较为精通,对主流AIGC大模型算法的评价指标较为了解 4、有AI图像、自然语言(NLU,NLG)、多模态等一种或多种算法的评估测试经验,有大模型方面测试经验优先; 5、关注CVPR,NeurIPS, AAAI等…
工作职责
1、负责AI算法的质量保障工作,负责算法效果的测试框架和测试标准的搭建; 2、分析业务产品需求、技术方案,负责测试方案的设计,制定合理高效的测试方案; 3、AI测试体系建设,构建AI原子能力、大语言模型、多模态感知、AIGC等算法的评测模型; 4、与产品经理、开发工程师、算法工程师等密切协作,参与产品的需求评审、设计评审与代码审查等环节,提前介入产品开发过程,提供测试视角的意见与建议,促进产品质量的前置保障。 5、编写详细、准确的测试报告,向项目团队、管理层及相关利益者汇报测试进展、发现的问题、质量状况及改进建议,确保各方对产品质量有清晰、全面的了解与认识
部门介绍:我们是市场与平台运营中心,作为京东科技的核心力量之一,在金融业务的市场拓展、平台运营与生态建设中发挥关键作用。我们以“体验与效率的价值共生”为核心理念,聚焦C端用户,推动产品体验与技术能力的深度融合,实现商业价值与用户体验的共赢。我们通过数据驱动决策、营销创新实践与平台精细化运营,持续优化关键金融场景(如现金贷、财富管理、大支付、保险等)的用户体验;依托京东金融APP、白条频道页、我的钱包页等核心入口,我们构建起连接用户与金融服务的高效桥梁。我们汇聚产品、运营、量化、研发等多职能人才,以协同创新为引擎,推动业务的可持续增长与长期价值创造。我们不仅追求短期目标的达成,更致力于构建一个用户信赖、商业健康、技术领先的金融科技生态。 欢迎加入我们,一起构建可持续的商业未来! 1. 建设一站式的大模型自动化评测平台,负责大模型评测基准建设和评测算法研究应用; 2. 为京东AI业务建设科学的评测体系,参与AI业务评测基准建设,对数据、模型和业务进行全面评估验证。系统化业务问题识别与优化机制,帮助指引算法和技术迭代方向,推动业务落地并取得效果。

- 负责风控领域数据测试,包括离线、实时数仓及全链路测试,构建多维度监控体系覆盖数据准确性、一致性、完整性、时效性,能通过算法或者大模型提前识别潜在数据问题。构建质量预警能力和数据质量基线,通过实时检测和定期巡检,提前发现问题并建立数据血缘,快速定位数据根因,评估影响范围,缩短问题修复时间 - 参与数据风险治理,能识别业务风险和推动治理,沉淀治理能力提升质量保障 - 大模型测试全流程工作,全链路功能测试,全链路压测,大模型评测体系建设,基座模型和应用模型,评测集管理、评测流程建设、评测工具需求制定和落地并输出评测报告。 - AI测试平台构建,构筑测试工具提升效率,先进技术的测试技术研究规划,推动测试技术,工具平台的突破和创新 - 深入理解风控策略逻辑,结合电商、社区、信贷、反欺诈、反洗钱等业务场景,针对风控模型(如评分卡、决策树、机器学习模型等)的准确性、稳定性、区分度等核心指标开展专项测试。 - 搭建与优化数据/模型测试体系,制定测试标准、规范及方法论,提升测试效率与覆盖度,保障风控数据与模型在生产环境的可靠运行。 - 参与风控系统迭代优化工作,从测试角度提出风险防控建议,保障系统安全性与合规性。
1、洞察AI能力的技术发展方向与应用场景,制定最新测试技术研究规划; 2、制定AI能力相关算法模型的评测标准、测试方案,整体测试策略制定; 3、构建AI引擎关键测试能力,包括:测试数据集建设、数据标注能力、自动化测试能力等; 4、负责AI特性的行业横向测评,牵引模型能力优化与竞争力提升。