京东高级ai评测工程师
社招全职5年以上测试开发岗地点:北京状态:招聘
任职要求
1.5年及以上AI/算法测试或评测经验,计算机/人工智能相关专业背景 2 精通AI评测技术栈:熟悉主流评测框架(如HELM、OpenCompass等)及工具(如PromptBench、FMEval),掌握Python/Java,具备评测脚本开发及自动化平台搭建能力 3.有完整主导2个以上AI产品评测项目的经验(需在面试中详细阐述) 4.具备评测体系设计视角,能根据产品阶段灵活调整评测策略,优秀的逻辑分析能力,能针对模型失效场景提出可解释的归因分析,有团队指导经验,擅长知识传递与流程规范化建设,熟悉大模型微调、RAG技术原理及对应评测方法。 符合京东价值观:客户为先、创新、拼搏、担当、感恩、诚信。
工作职责
1. AI产品评测体系构建 独立负责AI产品(NLP/CV/多模态等)的评测方案设计、指标制定与实施,覆盖准确性、鲁棒性、公平性、用户体验等维度 开发自动化评测工具链,构建可复用的评测框架与基线数据集 2. 全生命周期质量保障 主导从模型研发到上线的全流程评测,包括但不限于:数据质量评估、模型版本对比、A/B测试、线上效果监控 针对大语言模型(LLM等)、生成式AI等前沿方向设计专项评测方案 3. 技术赋能与团队成长 主导技术难点攻关(如幻觉检测、提示词对抗测试等),沉淀方法论并培训团队成员 搭建团队知识库,定期组织技术分享,提升整体AI评测能力 4. 跨团队协同 与算法、产品、研发团队深度协作,推动评测结果驱动产品迭代
包括英文材料
算法+
https://roadmap.sh/datastructures-and-algorithms
Step by step guide to learn Data Structures and Algorithms in 2025
https://www.hellointerview.com/learn/code
A visual guide to the most important patterns and approaches for the coding interview.
https://www.w3schools.com/dsa/
Helm+
[英文] Introduction to Helm
https://helm.sh/docs/intro/
Are you new to Helm? This is the place to start!
https://www.baeldung.com/ops/kubernetes-helm
In this tutorial, we’ll understand the basics of Helm and how they form a powerful tool for working with Kubernetes resources.
Python+
https://liaoxuefeng.com/books/python/introduction/index.html
中文,免费,零起点,完整示例,基于最新的Python 3版本。
https://www.learnpython.org/
a free interactive Python tutorial for people who want to learn Python, fast.
https://www.youtube.com/watch?v=K5KVEU3aaeQ
Master Python from scratch 🚀 No fluff—just clear, practical coding skills to kickstart your journey!
https://www.youtube.com/watch?v=rfscVS0vtbw
This course will give you a full introduction into all of the core concepts in python.
Java+
https://www.youtube.com/watch?v=eIrMbAQSU34
Master Java – a must-have language for software development, Android apps, and more! ☕️ This beginner-friendly course takes you from basics to real coding skills.
脚本+
[英文] Scripting language
https://en.wikipedia.org/wiki/Scripting_language
https://zhuanlan.zhihu.com/p/571097954
一个脚本通常是解释执行而非编译。脚本语言通常都有简单、易学、易用的特性,目的就是希望能让程序员快速完成程序的编写工作。
大模型+
https://www.youtube.com/watch?v=xZDB1naRUlk
You will build projects with LLMs that will enable you to create dynamic interfaces, interact with vast amounts of text data, and even empower LLMs with the capability to browse the internet for research papers.
https://www.youtube.com/watch?v=zjkBMFhNj_g
RAG+
https://www.youtube.com/watch?v=sVcwVQRHIc8
Learn how to implement RAG (Retrieval Augmented Generation) from scratch, straight from a LangChain software engineer.
相关职位
社招腾讯云技术
1.负责腾讯云AI产品质量保障和测试开发相关工作,参与AI产品(Prompt/Chain等)质量体系建设; 2.牵头推进传统测试与AI融合,探索建设前沿AI测试领域能力(包括但不限于AI测试工具开发、AI自动化体系建设等); 3.结合云测试现状,开展AI测试实践,依托AI工程化能力,帮助腾讯云提升研发效能和质量; 4.参与质量效率相关工具开发,推进研发流程、发布变更等持续改进优化。
更新于 2025-05-27
社招3年以上技术类-前端
1. 负责AI Business AI2C 创新小组相关产品的前端架构设计及研发,保障系统的安全、可扩展以及质量和性能,参与创新产品构思,与PD、UED、后端工程师协作,完成设计交互实现、数据交互、动态信息展现等; 2. 关注用户体验,与合作方一起不断改进产品的易用性;运用AI能力重塑产品形态与开发效率,提升用户体验; 3. 研究和探索创新的开发思路和新的前端技术,结合业务特点创新应用AI技术,解决前端团队开发过程中面临的各类问题,提升个人和团队的开发效能
更新于 2025-09-17
社招5年以上腾讯云技术
1.Agent核心框架研发: 负责排障AI Agent的核心框架设计与开发,包括任务规划(Planning)、工具调用(Tool-use)、记忆(Memory)等关键模块,持续提升Agent的自主决策与执行能力; 2.Agent效果评测与迭代: 主导设计并落地Agent自动化评测体系,并基于线上失效案例(如规划错误、幻觉)的深入分析,驱动模型、Prompt及工具链的持续优化; 3.大模型后训练与优化: 负责大模型的后训练流程,包括构建高质量SFT数据集、实施Fine-tuning与RLHF/DPO等优化策略,并建立评测-训练-部署的闭环,持续提升模型在排障领域的专业能力。
更新于 2025-08-06