平头哥平头哥-AI集群运维专家（机房与网络方向）-上海

社招全职5年以上技术-芯片2025-10-09地点：上海状态：招聘

扫码手机上打开

任职要求

我们希望你具备：
● 计算机、电子、自动化等相关专业本科及以上学历
● 5年以上IT基础设施、IDC运维、系统工程或HPC运维经验
● 熟悉主流服务器架构（x86_64 / ARM）及BIOS/BMC/IPMI远程管理
● 掌握Linux系统管理（CentOS/Ubuntu）、Shell脚本、基本网络知识（TCP/IP、VLAN、BGP等）
● 有大规模服务器集群部署和维护经验，熟悉RAID、磁盘阵列、带外管理
● 具备良好的文档习惯、问题排查能力和应急响应意识
● 能适应短期现场服务器上架、设备调试等工作场景（如需进入机房）。
加分项（强烈优先）：
● 有NVIDIA GPU集群部署经验，熟悉CUDA驱动、nvidia-smi、DC…

登录查看完整任职要求

微信扫码，1秒登录

工作职责

我们正在寻找一位熟悉数据中心建设、服务器部署与高性能网络运维的优秀工程师，加入我们致力于构建*下一代AI算力基础设施的核心团队。
你将参与企业级GPU集群的规划、部署与持续优化，支撑大语言模型（LLM）千亿级参数训练任务的稳定运行。如果你热爱“硬核”系统工程，关注物理层到网络层的极致性能，并希望在AI时代打造真正的“算力底座”，欢迎加入！
你将负责：
1. AI数据中心规划与机房部署 
参与新建或改造AI专用机房，完成服务器上架、电源配比、散热方案评估、PDU/UPS/BMC等基础设施配置，确保高密度GPU集群的可靠运行。
2. 大规模GPU集群部署与维护
主导NVIDIA A100/H100等高端GPU服务器的初始化、固件升级、驱动安装与健康监控；建立标准化部署流程（自动化装机、配置管理），提升交付效率。
3. 高性能网络架构支持（RDMA/InfiniBand/RoCE） 
配合网络团队完成IB/RoCE网络部署，配置子网管理器（SM）、交换机（如 Mellanox/NVIDIA Quantum-2）、路由策略；保障低延迟、高带宽通信满足AllReduce需求。
4. NCCL通信性能调优与故障排查
协助算法团队分析分布式训练中的通信瓶颈，结合nccl-tests、ibstat、ethtool等工具进行链路诊断；优化GPU拓扑（NVLink/NVSwitch）、NUMA绑定、MTU设置等关键参数。
5. 基础设施监控与自动化运维
搭建硬件健康监控体系（温度、功耗、风扇、ECC错误等），集成Prometheus + Grafana + Alertmanager；编写脚本实现自动巡检、告警响应与故障定位。
6. 跨团队协作支持训练平台稳定运行
与开发、QA团队协同，为大模型训练提供稳定、高效的底层算力环境，快速响应宕机、链路中断、丢包等紧急问题。

📮 投递简历 ✨AI模拟面试

难度：

包括英文材料

学历+

HPC+

Linux+

CentOS+

Ubuntu+

还有更多 •••

登录查看完整学习资料

相关职位

大模型推理存储系统工程师/专家-Seed

社招A121315

团队介绍：字节跳动豆包大模型团队（Seed）成立于 2023 年，致力于寻找通用智能的新方法，追求智能上限，并探索新的交互。团队研究方向涵盖 LLM、语音、视觉、世界模型、基础架构、AI Infra、下一代 AI 交互等，在中国、新加坡、美国等地设有实验室和岗位。豆包大模型团队在 AI 领域拥有长期愿景与决心，坚持深耕基础，期望成为世界一流的 AI 研究团队，为科技和社会发展作出贡献。目前团队已推出业界领先的通用大模型以及前沿的多模态能力，支持豆包、扣子、即梦等超过 50 个应用场景。 1、负责机器学习系统存储相关组件的设计和开发，服务于大模型推理的各业务场景（LLM/S2S/VLM/多模态等），包括模型分发加载、KV Cache存储和优化，数据IO性能优化，提高推理TTFT、TBT等核心性能指标； 2、负责设计和实现面向大模型推理的多层级存储系统，综合利用显存、本地内存、分布式内存/磁盘、远端大容量存储系统（HDFS/对象存储）等多种介质进行数据的存储和迁移管理，实现「近计算缓存+远端大容量存储」的一体化分级系统； 3、负责优化大模型KV Cache命中率，从推理框架，流量调度，多级缓存等多个系统纬度入手定制化优化策略；优化数据的读取性能，充分利用近计算侧的NVLink、RDMA高速网络、GPU Direct技术实现数据的高效传输；优化数据副本的存放策略，实现负载流量和存储数据的合理化分布； 4、负责设计和实现高效、易用的数据访问接口，实现和推理框架、引擎的无缝对接，管理KV Cache的生命周期； 5、负责Kubernetes场景下多级存储系统的接入、管理、运维、监控，确保稳定性； 6、负责多机房、多地域、多云场景的系统搭建和容灾，优化跨集群的数据摆放。

更新于 2024-12-20上海

大模型推理存储系统工程师/专家-Seed

社招A98910A

更新于 2024-12-20北京

蚂蚁集团-高级DBA/存储运维工程师-成都

社招3年以上技术-SRE

1. 系统运维与稳定性体系建设 a. 负责HBase/Lindorm、OceanBase等分布式数据库/存储系统的部署、监控、高可用设计以及故障应急，保障99.999%+稳定性SLA b. 主导存储集群性能调优、容灾方案设计(如多机房容灾、数据备份恢复、全球多活、全球合规存储等)，提升系统的健壮性。 c. 深入分析慢查询、热点等疑难场景，输出系统性优化解决方案，并实现平台化落地。 d. 针对业务场景设计存储选型方案，平衡性能、成本与可维护性。 e. 制定存储产品，组件运维、变更SOP，以及容灾演练机制与应急预案。 f. 推动开发团队落地存储使用最佳实践、以及平台能力的持续演进，降低人为故障风险。 2. 智能化运维体系建设 a. 开发运维工具链(如监控告警、自动扩缩容、巡检等)，推动运维效率的持续提升。 b. 持续积累沉淀专家经验与知识库，基于RAG等技术完善智能答疑的能力，并协助完成运维智能体的持续构建与优化。 c. 持续探索AI-Agent在存储运维场景的应用与落地，实现故障的自动定位、诊断以及自愈。 d. 持续跟踪HBase、Lindorm、OceanBase等分布式存储领域的前沿技术，主导关键组件的升级与架构演进。

更新于 2025-05-15成都

阿里云智能-运维专家-云平台运维

社招3年以上云智能集团

1）负责阿里云AI人工智能平台（PAI）运维工作，建设超大规模GPU集群稳定性体系，包括可观测性链路、监控报警，故障应急及处置、SLA可用率度量提升等 2）研发AI运维管控平台，通过自动化提升运维效率，包括交付&变更CICD、GPU节点交付&自愈、智能诊断定界等 3）落地AIOps智能运维，通过AI算法提升稳定性，包括异常检测、根因定位及基于大模型&智能体Agent运维落地等 4）负责稳定性架构设计及项目组织推动落地，包括基础架构云原生化、跨AZ高可用架构、产品可运维性架构演进等

更新于 2025-10-17北京|杭州