logo of jd

京东高级ai评测工程师

社招全职5年以上测试开发岗地点:北京状态:招聘

任职要求


1.5年及以上AI/算法测试或评测经验,计算机/人工智能相关专业背景
2 精通AI评测技术栈:熟悉主流评测框架(如HELM、OpenCompass等)及工具(如PromptBench、FMEval),掌握Python/Java,具备评测脚本开发及自动化平台搭建能力
3.有完整主导2个以上AI产品评测项…
登录查看完整任职要求
微信扫码,1秒登录

工作职责


1. AI产品评测体系构建
独立负责AI产品(NLP/CV/多模态等)的评测方案设计、指标制定与实施,覆盖准确性、鲁棒性、公平性、用户体验等维度
开发自动化评测工具链,构建可复用的评测框架与基线数据集

2. 全生命周期质量保障
主导从模型研发到上线的全流程评测,包括但不限于:数据质量评估、模型版本对比、A/B测试、线上效果监控
针对大语言模型(LLM等)、生成式AI等前沿方向设计专项评测方案

3. 技术赋能与团队成长
主导技术难点攻关(如幻觉检测、提示词对抗测试等),沉淀方法论并培训团队成员
搭建团队知识库,定期组织技术分享,提升整体AI评测能力

4. 跨团队协同
与算法、产品、研发团队深度协作,推动评测结果驱动产品迭代
包括英文材料
算法+
Helm+
Python+
还有更多 •••
相关职位

logo of jd
社招5年以上测试开发岗

1. AI产品评测体系构建:独立负责AI产品(NLP/CV/多模态等)的评测方案设计、指标制定与实施,覆盖准确性、鲁棒性、公平性、用户体验等维度,开发自动化评测工具链,构建可复用的评测框架与基线数据集; 2. 全生命周期质量保障:主导从模型研发到上线的全流程评测,包括但不限于:数据质量评估、模型版本对比、A/B测试、线上效果监控,针对大语言模型(LLM等)、生成式AI等前沿方向设计专项评测方案; 3. 技术赋能与团队成长:主导技术难点攻关(如幻觉检测、提示词对抗测试等),沉淀方法论并培训团队成员,搭建团队知识库,定期组织技术分享,提升整体AI评测能力; 4. 跨团队协同:与算法、产品、研发团队深度协作,推动评测结果驱动产品迭代。

更新于 2025-12-10北京
logo of kuaishou
社招3-5年D13923

1、负责大模型(包括不限于T2V、I2V、MLLM模型)评测工作和评测体系建设,包括设计制定和完善评测方案、评测指标、评测数据收集和更新、评测执行,并输出专业评测报告; 2、参与评测相关自动化评测工具开发及维护,最大化提高评测效率; 3、以算法手段,对基座大模型和AI Native应用进行分阶段、端到端评测; 4、参与构建评测Agent工具链、对战平台、模型竞技场、模型效果判别模型、应用数据飞轮等工具链建设; 5、站在用户角度,对产品、算法发提出建设性的意见,在评测参与的各个流程中以用户视角保证产品体验。

更新于 2025-08-11北京
logo of alibaba
社招3年以上技术类-开发

1.负责alibaba国际站交易营销产品的相关系统架构设计及研发,与产品密切配合,从需求出发主导和参与开发工作,高效交付,解决各类潜在系统技术风险,保证系统的安全、稳定、高效运行。 2.具有独立完成复杂的系统分析、设计的能力,高质量高效率的完成核心编码开发;积极参与团队卓越工程,持续提升系统整体性能和稳定性。 3.在做好业务能力支撑的前提下,具有技术调研、架构优化、性能调优能力,能深入理解并参与业务研发;积极参与业务方向讨论,提出优化建议,技术驱动业务发展 4.有良好的自驱力,能紧跟技术前沿,主动学习新技术,针对不断增长/变化的业务需求,积极使用AIGC等新技术,完成项目的技术选型、设计和落地。

更新于 2025-12-04杭州
logo of alibaba
社招3年以上技术类-数据

1、参与大模型数据平台架构设计与开发,为大模型数据资产建设管理提供平台支持,支持数据资产上架、知识生产、检索、训练应用等;数据用途上包含预训练数据、微调数据、评测数据等,数据模态上包含文本、图片、视频、音频等各类模态数据。 2、参与高可用、可扩展、分布式大模型评测平台架构设计与开发,支持多模型、多方法、多评测集的评测任务执行、评测结果分析,优化评测框架,提升评测效率,支持实现大模型快速迭代的评测要求。 3、在通用BenchMark基础上构建业务领域Benchmark,围绕“语料供给-模型迭代-模型评测”的链路不断优化链路,提升生产效率。 4、持续的创新和优化能力,提升产品整体质量,改善用户体验。

更新于 2025-06-30杭州