logo of jd

京东高级ai评测工程师

社招全职5年以上测试开发岗地点:北京状态:招聘

任职要求


1.5年及以上AI/算法测试或评测经验,计算机/人工智能相关专业背景
2 精通AI评测技术栈:熟悉主流评测框架(如HELM、OpenCompass等)及工具(如PromptBench、FMEval),掌握Python/Java,具备评测脚本开发及自动化平台搭建能力
3.有完整主导2个以上AI产品评测项…
登录查看完整任职要求
微信扫码,1秒登录

工作职责


1. AI产品评测体系构建
独立负责AI产品(NLP/CV/多模态等)的评测方案设计、指标制定与实施,覆盖准确性、鲁棒性、公平性、用户体验等维度
开发自动化评测工具链,构建可复用的评测框架与基线数据集

2. 全生命周期质量保障
主导从模型研发到上线的全流程评测,包括但不限于:数据质量评估、模型版本对比、A/B测试、线上效果监控
针对大语言模型(LLM等)、生成式AI等前沿方向设计专项评测方案

3. 技术赋能与团队成长
主导技术难点攻关(如幻觉检测、提示词对抗测试等),沉淀方法论并培训团队成员
搭建团队知识库,定期组织技术分享,提升整体AI评测能力

4. 跨团队协同
与算法、产品、研发团队深度协作,推动评测结果驱动产品迭代
包括英文材料
算法+
Helm+
Python+
还有更多 •••
相关职位

logo of tencent
社招腾讯云技术

1.负责腾讯云AI产品质量保障和测试开发相关工作,参与AI产品(Prompt/Chain等)质量体系建设; 2.牵头推进传统测试与AI融合,探索建设前沿AI测试领域能力(包括但不限于AI测试工具开发、AI自动化体系建设等); 3.结合云测试现状,开展AI测试实践,依托AI工程化能力,帮助腾讯云提升研发效能和质量; 4.参与质量效率相关工具开发,推进研发流程、发布变更等持续改进优化。

更新于 2025-05-27北京
logo of alibaba
社招3年以上技术类-前端

1. 负责AI Business AI2C 创新小组相关产品的前端架构设计及研发,保障系统的安全、可扩展以及质量和性能,参与创新产品构思,与PD、UED、后端工程师协作,完成设计交互实现、数据交互、动态信息展现等; 2. 关注用户体验,与合作方一起不断改进产品的易用性;运用AI能力重塑产品形态与开发效率,提升用户体验; 3. 研究和探索创新的开发思路和新的前端技术,结合业务特点创新应用AI技术,解决前端团队开发过程中面临的各类问题,提升个人和团队的开发效能

更新于 2025-09-17杭州
logo of tencent
社招5年以上腾讯云技术

1.Agent核心框架研发: 负责排障AI Agent的核心框架设计与开发,包括任务规划(Planning)、工具调用(Tool-use)、记忆(Memory)等关键模块,持续提升Agent的自主决策与执行能力; 2.Agent效果评测与迭代: 主导设计并落地Agent自动化评测体系,并基于线上失效案例(如规划错误、幻觉)的深入分析,驱动模型、Prompt及工具链的持续优化; 3.大模型后训练与优化: 负责大模型的后训练流程,包括构建高质量SFT数据集、实施Fine-tuning与RLHF/DPO等优化策略,并建立评测-训练-部署的闭环,持续提升模型在排障领域的专业能力。

更新于 2025-11-14深圳
logo of tencent
社招5年以上腾讯云技术

1.Agent核心框架研发: 负责排障AI Agent的核心框架设计与开发,包括任务规划(Planning)、工具调用(Tool-use)、记忆(Memory)等关键模块,持续提升Agent的自主决策与执行能力; 2.Agent效果评测与迭代: 主导设计并落地Agent自动化评测体系,并基于线上失效案例(如规划错误、幻觉)的深入分析,驱动模型、Prompt及工具链的持续优化; 3.大模型后训练与优化: 负责大模型的后训练流程,包括构建高质量SFT数据集、实施Fine-tuning与RLHF/DPO等优化策略,并建立评测-训练-部署的闭环,持续提升模型在排障领域的专业能力。

更新于 2025-08-06深圳|北京