京东高级ai评测工程师

社招全职5年以上测试开发岗2025-09-11地点：北京状态：招聘

扫码手机上打开

任职要求

1.5年及以上AI/算法测试或评测经验，计算机/人工智能相关专业背景
2 精通AI评测技术栈：熟悉主流评测框架（如HELM、OpenCompass等）及工具（如PromptBench、FMEval），掌握Python/Java，具备评测脚本开发及自动化平台搭建能力
3.有完整主导2个以上AI产品评测项…

登录查看完整任职要求

微信扫码，1秒登录

工作职责

1. AI产品评测体系构建
独立负责AI产品（NLP/CV/多模态等）的评测方案设计、指标制定与实施，覆盖准确性、鲁棒性、公平性、用户体验等维度
开发自动化评测工具链，构建可复用的评测框架与基线数据集

2. 全生命周期质量保障
主导从模型研发到上线的全流程评测，包括但不限于：数据质量评估、模型版本对比、A/B测试、线上效果监控
针对大语言模型（LLM等）、生成式AI等前沿方向设计专项评测方案

3. 技术赋能与团队成长
主导技术难点攻关（如幻觉检测、提示词对抗测试等），沉淀方法论并培训团队成员
搭建团队知识库，定期组织技术分享，提升整体AI评测能力

4. 跨团队协同
与算法、产品、研发团队深度协作，推动评测结果驱动产品迭代

📮 投递简历 ✨AI模拟面试

难度：

包括英文材料

算法+

Helm+

Python+

还有更多 •••

登录查看完整学习资料

相关职位

高级ai评测工程师

社招5年以上测试开发岗

1. AI产品评测体系构建：独立负责AI产品（NLP/CV/多模态等）的评测方案设计、指标制定与实施，覆盖准确性、鲁棒性、公平性、用户体验等维度，开发自动化评测工具链，构建可复用的评测框架与基线数据集； 2. 全生命周期质量保障：主导从模型研发到上线的全流程评测，包括但不限于：数据质量评估、模型版本对比、A/B测试、线上效果监控，针对大语言模型（LLM等）、生成式AI等前沿方向设计专项评测方案； 3. 技术赋能与团队成长：主导技术难点攻关（如幻觉检测、提示词对抗测试等），沉淀方法论并培训团队成员，搭建团队知识库，定期组织技术分享，提升整体AI评测能力； 4. 跨团队协同：与算法、产品、研发团队深度协作，推动评测结果驱动产品迭代。

更新于 2025-12-10北京

AI方向-高级测试开发工程师

社招腾讯云技术

1.负责腾讯云AI产品质量保障和测试开发相关工作，参与AI产品（Prompt/Chain等）质量体系建设； 2.牵头推进传统测试与AI融合，探索建设前沿AI测试领域能力（包括但不限于AI测试工具开发、AI自动化体系建设等）； 3.结合云测试现状，开展AI测试实践，依托AI工程化能力，帮助腾讯云提升研发效能和质量； 4.参与质量效率相关工具开发，推进研发流程、发布变更等持续改进优化。

更新于 2025-05-27北京

AI Business-高级前端开发工程师（AI方向）-杭州

社招3年以上技术类-前端

1. 负责AI Business AI2C 创新小组相关产品的前端架构设计及研发，保障系统的安全、可扩展以及质量和性能，参与创新产品构思，与PD、UED、后端工程师协作，完成设计交互实现、数据交互、动态信息展现等； 2. 关注用户体验，与合作方一起不断改进产品的易用性；运用AI能力重塑产品形态与开发效率，提升用户体验； 3. 研究和探索创新的开发思路和新的前端技术，结合业务特点创新应用AI技术，解决前端团队开发过程中面临的各类问题，提升个人和团队的开发效能

更新于 2025-09-17杭州

高级AI Agent开发工程师-智能运维方向

社招5年以上腾讯云技术

1.Agent核心框架研发：负责排障AI Agent的核心框架设计与开发，包括任务规划（Planning）、工具调用（Tool-use）、记忆（Memory）等关键模块，持续提升Agent的自主决策与执行能力； 2.Agent效果评测与迭代：主导设计并落地Agent自动化评测体系，并基于线上失效案例（如规划错误、幻觉）的深入分析，驱动模型、Prompt及工具链的持续优化； 3.大模型后训练与优化：负责大模型的后训练流程，包括构建高质量SFT数据集、实施Fine-tuning与RLHF/DPO等优化策略，并建立评测-训练-部署的闭环，持续提升模型在排障领域的专业能力。

更新于 2025-11-14深圳