logo of jd

京东高级ai评测工程师

社招全职5年以上测试开发岗地点:北京状态:招聘

任职要求


1.5年及以上AI/算法测试或评测经验,计算机/人工智能相关专业背景
2 精通AI评测技术栈:熟悉主流评测框架(如HELM、OpenCompass等)及工具(如PromptBench、FMEval),掌握Python/Java,具备评测脚本开发及自动化平台搭建能力
3.有完整主导2个以上AI产品评测项目的经验(需在面试中详细阐述)
4.具备评测体系设计视角,能根据产品阶段灵活调整评测策略,优秀的逻辑分析能力,能针对模型失效场景提出可解释的归因分析,有团队指导经验,擅长知识传递与流程规范化建设,熟悉大模型微调、RAG技术原理及对应评测方法。

符合京东价值观:客户为先、创新、拼搏、担当、感恩、诚信。

工作职责


1. AI产品评测体系构建
独立负责AI产品(NLP/CV/多模态等)的评测方案设计、指标制定与实施,覆盖准确性、鲁棒性、公平性、用户体验等维度
开发自动化评测工具链,构建可复用的评测框架与基线数据集

2. 全生命周期质量保障
主导从模型研发到上线的全流程评测,包括但不限于:数据质量评估、模型版本对比、A/B测试、线上效果监控
针对大语言模型(LLM等)、生成式AI等前沿方向设计专项评测方案

3. 技术赋能与团队成长
主导技术难点攻关(如幻觉检测、提示词对抗测试等),沉淀方法论并培训团队成员
搭建团队知识库,定期组织技术分享,提升整体AI评测能力

4. 跨团队协同
与算法、产品、研发团队深度协作,推动评测结果驱动产品迭代
包括英文材料
算法+
Helm+
Python+
Java+
脚本+
大模型+
RAG+
相关职位

logo of tencent
社招腾讯云技术

1.负责腾讯云AI产品质量保障和测试开发相关工作,参与AI产品(Prompt/Chain等)质量体系建设; 2.牵头推进传统测试与AI融合,探索建设前沿AI测试领域能力(包括但不限于AI测试工具开发、AI自动化体系建设等); 3.结合云测试现状,开展AI测试实践,依托AI工程化能力,帮助腾讯云提升研发效能和质量; 4.参与质量效率相关工具开发,推进研发流程、发布变更等持续改进优化。

更新于 2025-05-27
logo of alibaba
社招3年以上技术类-前端

1. 负责AI Business AI2C 创新小组相关产品的前端架构设计及研发,保障系统的安全、可扩展以及质量和性能,参与创新产品构思,与PD、UED、后端工程师协作,完成设计交互实现、数据交互、动态信息展现等; 2. 关注用户体验,与合作方一起不断改进产品的易用性;运用AI能力重塑产品形态与开发效率,提升用户体验; 3. 研究和探索创新的开发思路和新的前端技术,结合业务特点创新应用AI技术,解决前端团队开发过程中面临的各类问题,提升个人和团队的开发效能

更新于 2025-09-17
logo of tencent
社招5年以上腾讯云技术

1.Agent核心框架研发: 负责排障AI Agent的核心框架设计与开发,包括任务规划(Planning)、工具调用(Tool-use)、记忆(Memory)等关键模块,持续提升Agent的自主决策与执行能力; 2.Agent效果评测与迭代: 主导设计并落地Agent自动化评测体系,并基于线上失效案例(如规划错误、幻觉)的深入分析,驱动模型、Prompt及工具链的持续优化; 3.大模型后训练与优化: 负责大模型的后训练流程,包括构建高质量SFT数据集、实施Fine-tuning与RLHF/DPO等优化策略,并建立评测-训练-部署的闭环,持续提升模型在排障领域的专业能力。

更新于 2025-08-06
logo of kuaishou
社招3-5年D13923

1、负责大模型(包括不限于T2V、I2V、MLLM模型)评测工作和评测体系建设,包括设计制定和完善评测方案、评测指标、评测数据收集和更新、评测执行,并输出专业评测报告; 2、参与评测相关自动化评测工具开发及维护,最大化提高评测效率; 3、以算法手段,对基座大模型和AI Native应用进行分阶段、端到端评测; 4、参与构建评测Agent工具链、对战平台、模型竞技场、模型效果判别模型、应用数据飞轮等工具链建设; 5、站在用户角度,对产品、算法发提出建设性的意见,在评测参与的各个流程中以用户视角保证产品体验。

更新于 2025-08-11