logo of mihoyo

米哈游AI集群运维工程师

校招全职程序&技术类地点:上海状态:招聘

任职要求


岗位要求:
1. 本科及以上学历,计算机、软件、人工智能等相关专业;
2. 熟悉 Linux 操作系统,掌握常用命令及系统管理基础;
3. 熟悉 x86服务器架构、GPU、TCP/IP、RDMA网络等基础知识;
4. 熟悉 Python / Shell 脚本编写,有一定自动化运维经验;
5. 具备良好的沟通能…
登录查看完整任职要求
微信扫码,1秒登录

工作职责


岗位职责
1. GPU集群运维与管理
-负责AI训练与推理所需的GPU服务器、集群及相关基础设施的日常运维。
-进行GPU资源全生命周期管理,保障AI任务的高效运行。
2. 系统部署与优化
-参与OS、GPU驱动、CUDA、cuDNN、NCCL等基础环境的安装、升级与兼容性测试。
-针对AI训练/推理任务优化系统参数(如内核调优、RDMA调优、IO调优等)。
3. 故障排查与性能调优
-快速定位并解决GPU服务器硬件、网络、存储等相关问题。
-分析任务运行日志与监控数据,优化资源利用率。
4. 自动化与工具开发
-编写脚本(Python/Bash等)实现批量部署、监控报警、日志采集、备机管理等自动化运维功能。
-参与GPU集群管理平台的功能扩展与性能优化。
5. 跨团队协作
-与模型训练、推理服务、数据服务团队紧密合作,理解业务需求并提供技术支持。
-协助业务团队定位模型运行中的硬件/系统瓶颈。
包括英文材料
学历+
Linux+
TCP/IP+
Python+
Bash+
脚本+
还有更多 •••
相关职位

logo of thead
社招5年以上技术-芯片

我们正在寻找一位熟悉数据中心建设、服务器部署与高性能网络运维的优秀工程师,加入我们致力于构建*下一代AI算力基础设施的核心团队。 你将参与企业级GPU集群的规划、部署与持续优化,支撑大语言模型(LLM)千亿级参数训练任务的稳定运行。如果你热爱“硬核”系统工程,关注物理层到网络层的极致性能,并希望在AI时代打造真正的“算力底座”,欢迎加入! 你将负责: 1. AI数据中心规划与机房部署 参与新建或改造AI专用机房,完成服务器上架、电源配比、散热方案评估、PDU/UPS/BMC等基础设施配置,确保高密度GPU集群的可靠运行。 2. 大规模GPU集群部署与维护 主导NVIDIA A100/H100等高端GPU服务器的初始化、固件升级、驱动安装与健康监控;建立标准化部署流程(自动化装机、配置管理),提升交付效率。 3. 高性能网络架构支持(RDMA/InfiniBand/RoCE) 配合网络团队完成IB/RoCE网络部署,配置子网管理器(SM)、交换机(如 Mellanox/NVIDIA Quantum-2)、路由策略;保障低延迟、高带宽通信满足AllReduce需求。 4. NCCL通信性能调优与故障排查 协助算法团队分析分布式训练中的通信瓶颈,结合nccl-tests、ibstat、ethtool等工具进行链路诊断;优化GPU拓扑(NVLink/NVSwitch)、NUMA绑定、MTU设置等关键参数。 5. 基础设施监控与自动化运维 搭建硬件健康监控体系(温度、功耗、风扇、ECC错误等),集成Prometheus + Grafana + Alertmanager;编写脚本实现自动巡检、告警响应与故障定位。 6. 跨团队协作支持训练平台稳定运行 与开发、QA团队协同,为大模型训练提供稳定、高效的底层算力环境,快速响应宕机、链路中断、丢包等紧急问题。

更新于 2025-10-09上海
logo of aliyun
社招3年以上诚云科技

1、负责阿里云AI人工智能平台(PAI)运维工作,建设超大规模GPU集群稳定性体系,包括可观测性链路、监控报警,故障应急及处置、SLA可用率度量提升等 2、研发AI运维管控平台,通过自动化提升运维效率,包括交付&变更CICD、GPU节点交付&自愈、智能诊断定界等 3、落地AIOps智能运维,通过AI算法提升稳定性,包括异常检测、根因定位及基于大模型&智能体Agent运维落地等 4、负责稳定性架构设计及项目组织推动落地,包括基础架构云原生化、跨AZ高可用架构、产品可运维性架构演进等

更新于 2025-10-12北京|杭州
logo of aliyun
社招5年以上诚云科技

1、负责阿里云AI人工智能平台(PAI)运维工作,建设超大规模GPU集群稳定性体系,包括可观测性链路、监控报警,故障应急及处置、SLA可用率度量提升等 2、研发AI运维管控平台,通过自动化提升运维效率,包括交付&变更CICD、GPU节点交付&自愈、智能诊断定界等 3、落地AIOps智能运维,通过AI算法提升稳定性,包括异常检测、根因定位及基于大模型&智能体Agent运维落地等 4、负责稳定性架构设计及项目组织推动落地,包括基础架构云原生化、跨AZ高可用架构、产品可运维性架构演进等

更新于 2025-09-30北京|杭州
logo of antgroup
社招3年以上技术-SRE

1. 系统运维与稳定性体系建设 a. 负责HBase/Lindorm、OceanBase等分布式数据库/存储系统的部署、监控、高可用设计以及故障应急,保障99.999%+稳定性SLA b. 主导存储集群性能调优、容灾方案设计(如多机房容灾、数据备份恢复、全球多活、全球合规存储等),提升系统的健壮性。 c. 深入分析慢查询、热点等疑难场景,输出系统性优化解决方案,并实现平台化落地。 d. 针对业务场景设计存储选型方案,平衡性能、成本与可维护性。 e. 制定存储产品,组件运维、变更SOP,以及容灾演练机制与应急预案。 f. 推动开发团队落地存储使用最佳实践、以及平台能力的持续演进,降低人为故障风险。 2. 智能化运维体系建设 a. 开发运维工具链(如监控告警、自动扩缩容、巡检等),推动运维效率的持续提升。 b. 持续积累沉淀专家经验与知识库,基于RAG等技术完善智能答疑的能力,并协助完成运维智能体的持续构建与优化。 c. 持续探索AI-Agent在存储运维场景的应用与落地,实现故障的自动定位、诊断以及自愈。 d. 持续跟踪HBase、Lindorm、OceanBase等分布式存储领域的前沿技术,主导关键组件的升级与架构演进。

更新于 2025-05-15成都