京东高级测试开发工程师(AI Infra)
社招全职5年以上测试开发岗地点:北京状态:招聘
任职要求
1. 统招本科及以上计算机相关专业,5年以上软件测试工作经验。有HPC、云计算IAAS、大模型、大数据类项目经验优先; 2. 对Bug嗅觉灵敏,具备协助研发定位根因的能力,掌握项目涉及的整体系统架构并设计功能、稳定性、…
登录查看完整任职要求
微信扫码,1秒登录
工作职责
1. 负责京东云AI基础设施产品的质量保障工作,为上层AI开发提供高性能计算/网络、AI存储、大模型训练/推理、大数据开发等高质量底层技术产品; 2. 参与构建产品质量保障体系,根据产品需求、设计文档,制定测试计划,编写和执行测试用例,反馈问题,评价版本质量; 3. 参与自动化测试框架及测试pipeline建设,持续提高提测质量和测试效率。
包括英文材料
HPC+
https://www.ibm.com/think/topics/hpc
HPC is a technology that uses clusters of powerful processors that work in parallel to process massive, multidimensional data sets and solve complex problems at extremely high speeds.
IaaS+
https://www.ibm.com/think/topics/iaas
https://www.youtube.com/watch?v=XRdmfo4M_YA
大模型+
https://www.youtube.com/watch?v=xZDB1naRUlk
You will build projects with LLMs that will enable you to create dynamic interfaces, interact with vast amounts of text data, and even empower LLMs with the capability to browse the internet for research papers.
https://www.youtube.com/watch?v=zjkBMFhNj_g
还有更多 •••
相关职位
社招3年以上ACG
-参与 AI Infra 核心平台建设,支撑大模型训练与推理业务的稳定、高效运行,覆盖 GPU、RDMA、高速网络等算力资源在云原生体系中的统一管理与调度 -负责 GPU、RDMA 等 IaaS 资源的自动化准入、能力识别、基准测试与性能评测,建设标准化算力验收与持续评测体系,保障不同硬件规格在大规模集群下的可用性与一致性 -负责 Kubernetes 容器平台的架构设计、能力演进与稳定性治理,重点关注平台的高可用、稳定性、安全性、性能、可扩展性等非功能性指标,参与或主导调度、资源隔离、设备插件(GPU/RDMA)、网络或存储相关模块的设计与二次开发 -支撑大模型推理与训练业务在平台侧的工程化落地,关注推理与训练场景下的资源利用率、调度效率、显存管理与多租户隔离,与算法、引擎团队协作,推动性能优化能力在平台层的规模化复用 -参与多卡、多机、大规模 GPU 集群的资源调度与稳定性建设,支撑 TP/DP/PP/PD 等并行模式在平台侧的运行与管理,解决实际生产环境中的性能抖动、资源碎片化与容量规划问题 -参与运维与运营平台后端研发,支撑算力运营、性能监控、容量管理与成本治理,建设可观测体系(监控、日志、Tracing),推动问题发现与定位的自动化,通过工程化手段持续降低人工运维成本
更新于 2026-02-03深圳
社招2年以上技术类-质量保证
职位描述: 1、负责产品技术团队的质量保障工作,包含但不限于通过参与需求、技术、交互评审,合理制定测试方案、计划并实施,设计有效的测试用例并执行,最终保障项目的高质量交付 2、通过提效工具的开发或者引入,对工作过程中(包含流程、业务、技术)遇到的问题能够有效解决,提高工作效率 3、通过流程规范保障系统的稳定运行,保障研发流程高效和高质推进,促使质量不断改进和提升
更新于 2025-05-30杭州
