logo of ymtc

长江存储AI平台架构师(J14573)

社招全职5年以上地点:武汉状态:招聘

任职要求


任职要求 (Qualifications)
教育背景:计算机、通信、电子工程等相关专业本科及以上学历。
经验要求:
1、5 年以上云计算、基础架构或 HPC 相关开发经验。
2、必须具备大型 GPU 集群(100+ 卡规模)的运维、调度或AI平台建设经验。
3、精通 Kubernetes 架构,熟悉 Docker/Containerd。
4、熟悉 NVIDIA GP…
登录查看完整任职要求
微信扫码,1秒登录

工作职责


核心岗位职责 (Key Responsibilities)
1、负责基于 Kubernetes 的 AI 算力调度平台建设,实现 GPU/NPU 等异构算力的统一纳管、池化与弹性调度。
2、大规模分布式训练基础设施:构建支持千卡/万卡集群的稳定环境,优化高性能网络。
3、云原生 MLOps 体系构建:打造基于云原生的模型开发、训练、部署全流程平台:实现算力资源的计量计费、多租户隔离、配额管理及成本优化(FinOps)。
4、负责智算集群的监控告警、故障自愈及性能调优;保障任务的高可用性(SLA)。
包括英文材料
学历+
HPC+
Kubernetes+
Docker+
containerd+
还有更多 •••