logo of alibaba

阿里巴巴达摩院-AI 软件栈工具链测试工程师-计算技术

社招全职3年以上技术-芯片地点:成都 | 北京 | 杭州 | 上海状态:招聘

任职要求


必备能力
•	本科及以上,计算机/软件/电子相关;3 年+ 测试或系统验证经验。
•	熟悉 Linux(进程/权限/内核日志/网络/性能工具),具备排障能力(dmesg/journalctl/perf/strace 等)。
•	熟悉容器与 K8s:至少理解并能操作 DaemonSet/CRD/Admission/Webhook/RBAC/Node label/taint & toleration/device plugin 等机制。
•	有 GPU/异构/高性能系统测试经验(任一满足即可):GPU 驱动/工具链、CUDA/ROCm 类生态、RDMA/NCCL 通信、算子性能/显存/带宽测试。
•	能编写自动化测试代码与工具脚本(Pytho…
登录查看完整任职要求
微信扫码,1秒登录

工作职责


岗位描述
负责 AI/GPU 软件栈工具链的系统测试与质量保障,覆盖从 驱动/固件能力暴露 → 容器运行时接入 → K8s 编排部署 → 可观测/诊断/Profiling → 调试与运维 的端到端链路。通过搭建自动化验证体系、E2E 测试环境与稳定性/兼容性测试方案,保障工具链在 Post Silicon 与生产集群场景下可交付、可运维、可观测、可调试。

岗位职责:
1. 云原生 GPU 工具链的端到端测试与交付质量,负责 GPU Operator / ClusterPolicy 的部署、升级、回滚、配置变更与异常恢复测试,负责 K8s 场景 E2E 测试,构建并维护集群级测试基线:单机/多机、不同 OS(Ubuntu/Anolis/CentOS/RHEL 等)、不同 containerd/docker、不同 K8s 版本矩阵。
2. 容器运行时与设备接入链路测试,测试 Container Toolkit / CDI / runtime hook:驱动/库/设备节点映射正确性、容器内可用性、权限与隔离、与不同 runtime 的兼容性。测试 Device Plugin / GPU Feature Discovery:设备发现、健康检查、资源分配、配置热加载、节点标签变化触发行为、异常设备/坏卡/降级策略验证。覆盖典型 workload 验证:训练/推理/HPC demo(可用 PyTorch、CUDA sample、NCCL/RCCL 类通信样例等)作为回归基准。
3. 运维与诊断工具测试(SMI / DCGM 类 / diag / exporter),测试 SMI/诊断工具,构建测试监控链路,对齐硬件能力暴露路径,对关键字段在 FW/KMD/用户态库/工具层的贯通进行验证与回归。
4. Profiling 与调试工具测试(Profiling Tool / GDB Debugger),负责 Profiling 工具的功能/性能/稳定性测试,负责 Thrive GDB / 异构调试链路测试,与 OpenOCD/仿真器/EMU/硬件板卡协同验证;覆盖 debug 信息(DWARF)、fatbinary、runtime 传递等场景。
5. 自动化与工程体系建设,设计并落地自动化测试框架(Python/Go/Shell 均可),沉淀可复用的 E2E 测试套件,了解多版本矩阵、夜间回归、长稳 soak test、性能基线与趋势分析。
包括英文材料
Linux+
内核+
Perf+
STrace+
Kubernetes+
Node.js+
CUDA+
NCCL+
还有更多 •••