京东高级测试开发工程师(AI Infra)
社招全职5年以上测试开发岗状态:招聘
任职要求
1. 统招本科及以上计算机相关专业,5年以上软件测试工作经验。有HPC、云计算IAAS、大模型、大数据类项目经验优先; 2. 对Bug嗅觉灵敏,具备协助研发定位根因的能力,掌握项目涉及的整体系统架构并设计功能、稳定性、…
登录查看完整任职要求
微信扫码,1秒登录
工作职责
我们是京东云,作为京东集团面向企业、政府等机构的技术服务品牌,是更懂产业的数智化解决方案提供商,致力于为企业、金融机构、政府等各类客户提供以供应链为基础的数智化解决方案。依托公、专、混的全栈式云产品矩阵,我们融合了人工智能、大数据、物联网等前沿科技,在零售、物流、健康、智能城市、金融科技等行业领域为客户提供了丰富的产品与数字化解决方案,帮助客户降低成本、提升效率,是值得信赖的产业数字合作伙伴。 岗位职责: 1. 负责京东云AI基础设施产品的质量保障工作,为上层AI开发提供高性能计算/网络、AI存储、大模型网关、大模型训练/推理、大数据开发等高质量底层技术产品; 2. 深度使用AI技术构建产品质量保障体系,反馈问题,评价版本质量; 3. 参与自动化测试框架及测试pipeline建设,持续提高提测质量和测试效率。
包括英文材料
相关职位
社招5年以上测试开发岗
1. 负责京东云AI基础设施产品的质量保障工作,为上层AI开发提供高性能计算/网络、AI存储、大模型训练/推理、大数据开发等高质量底层技术产品; 2. 参与构建产品质量保障体系,根据产品需求、设计文档,制定测试计划,编写和执行测试用例,反馈问题,评价版本质量; 3. 参与自动化测试框架及测试pipeline建设,持续提高提测质量和测试效率。
更新于 2025-08-24北京
社招3年以上ACG
-参与 AI Infra 核心平台建设,支撑大模型训练与推理业务的稳定、高效运行,覆盖 GPU、RDMA、高速网络等算力资源在云原生体系中的统一管理与调度 -负责 GPU、RDMA 等 IaaS 资源的自动化准入、能力识别、基准测试与性能评测,建设标准化算力验收与持续评测体系,保障不同硬件规格在大规模集群下的可用性与一致性 -负责 Kubernetes 容器平台的架构设计、能力演进与稳定性治理,重点关注平台的高可用、稳定性、安全性、性能、可扩展性等非功能性指标,参与或主导调度、资源隔离、设备插件(GPU/RDMA)、网络或存储相关模块的设计与二次开发 -支撑大模型推理与训练业务在平台侧的工程化落地,关注推理与训练场景下的资源利用率、调度效率、显存管理与多租户隔离,与算法、引擎团队协作,推动性能优化能力在平台层的规模化复用 -参与多卡、多机、大规模 GPU 集群的资源调度与稳定性建设,支撑 TP/DP/PP/PD 等并行模式在平台侧的运行与管理,解决实际生产环境中的性能抖动、资源碎片化与容量规划问题 -参与运维与运营平台后端研发,支撑算力运营、性能监控、容量管理与成本治理,建设可观测体系(监控、日志、Tracing),推动问题发现与定位的自动化,通过工程化手段持续降低人工运维成本
更新于 2026-02-03深圳
