大疆高级IT基础设施专家

社招全职3年以上运维及运维开发2026-01-28地点：深圳状态：招聘

扫码手机上打开

任职要求

1. 三年以上云与AI基础设施相关工作经验，具备丰富的云平台管理和AI算力优化经验；
2. 具备网络规划、存储解决方案、云原生应用、GPU加速计算、AI算力优化、云计算架构等领域的专业知识；
3. 精通…

登录查看完整任职要求

微信扫码，1秒登录

工作职责

1. 承担公司大规模算力集群的建设与交付，负责 GPU/XPU 等高性能加速卡资源的统一管理，支持大模型训练、在线推理、搜索、推荐等核心业务的稳定运行；
2. 熟悉主流 GPU 训练平台及分布式训练框架，了解 PyTorch、DeepSpeed、Megatron-LM 等在大规模集群中的训练特性，同时熟悉公有云上的云原生 GPU 训练平台（如 AWS、Azure、GCP、阿里云、火山引擎等）的调度、资源管理与训练流程；
3. 能够监控大规模 GPU 资源的使用情况，建立使用基线与性能指标体系，持续分析利用率、稳定性与异常模式，为资源规划、调度优化和容量管理提供依据；
4. 参与算力平台及相关服务的整体架构设计与生命周期管理，从规划、评审到部署上线，推动生产集群向更高稳定性与可持续性演进。

📮 投递简历 ✨AI模拟面试

难度：

包括英文材料

Docker+

Kubernetes+

还有更多 •••

登录查看完整学习资料

相关职位

高级IT基础设施运维工程师 - 系统可用性与SRE方向

社招5-10年信息技术

职位概述：我们正在寻找一位对系统稳定性和高可用性有着极致追求的高级运维工程师。您将成为我们电商及资讯平台基础设施的“守护者”，核心职责是确保生产环境7x24小时高可用，并高效管理从故障发现到恢复的全生命周期。您需要具备深厚的技术功底、冷静的应急心态和强大的复盘能力，通过自动化、流程化和系统化的方法，不断提升我们系统的韧性与可观测性，为亿万用户的顺畅体验保驾护航。核心职责： 1. 系统高可用性保障： o 负责公司核心业务（电商、资讯）生产环境及基础设施（服务器、网络、数据库、中间件等）的稳定运行，确保服务SLA达到或超过既定目标（如99.99%）。 o 设计、实施和维护高可用和容灾架构，包括同城双活、异地灾备等方案的落地与演练。 2. 监控与应急响应： o 主导建设和优化集中式监控、日志分析与告警系统（如Prometheus/Grafana, ELK, Zabbix, Datadog等），确保能提前预警、快速发现问题。 o 作为主要事故处理指挥官（Incident Commander），负责7x24小时应急响应，领导并协调相关团队对线上事故进行快速定位、止损和恢复，最大限度降低影响。 3. 事故全生命周期管理： o 严格遵循ITIL等最佳实践，管理事故（Incident）和处理工单（Ticket）。 o 主导重大事故复盘（Post-mortem），编写详尽的复盘报告，深入分析根因，并推动落实改进措施（如代码修复、流程优化、架构调整等），避免同类问题重复发生。 4. 运维自动化与效率提升： o 通过编写脚本（Shell/Python/Go等）和利用自动化工具（Ansible/Terraform等），自动化日常运维操作和故障处理流程，提升效率，减少人为失误。 o 践行SRE（Site Reliability Engineering）理念，通过代码管理基础设施（IaC）。 5. 容量规划与性能优化： o 定期进行系统容量评估和规划，确保系统有能力应对业务增长和突发流量（如大促活动）。 o 分析系统性能瓶颈，协同开发团队进行调优，提升系统效率和资源利用率。 6. 系统组件的安全升级及维护： o 常规维护能力：具备使用安全扫描工具进行安全漏洞扫描额能力。能全程跟进系统组件安全管理，做好版本监控、漏洞扫描与风险评估，按计划升级部署补丁、更新配置，快速应对突发安全事件，降低业务受影响程度。 o 借助工具强化能力：熟练使用安全卫士等工具，将其融入维护流程。实现自动化漏洞检测与修复建议输出，实时监控异常与潜在威胁并预警阻断，利用日志分析优化安全策略，构建闭环安全管理体系。

更新于 2025-09-30深圳

高级网络架构师

社招10年以上运维工程师岗

1、负责公司全球网络架构的规划设计、部署实施和维护优化，保障网络的高可用性、高性能和高安全性。 2、负责公司网络整体运营保障，网络安全防护，网络性能监控及网络故障处理。 3、负责公司IT预算管理，IT设备的选型，进行公司网络设备、网络架构的标准化修订工作，参与全球供应商的商务谈判，包括全球运营商管理，供应商等商务资质和流程的推进。 4、负责和指导开发自动化运维工具，不断研发与探索运维自动化及各类创新途径，缩短运维响应时间，减低运维成本。 5、赋能公司其他部门，提供网络技术支持和建议，助力业务系统的开发与部署。 6、持续跟踪技术和产业发展趋势，深刻洞察公司业务需求，构建满足业务需求和技术领先的IT基础设施。

更新于 2025-10-10北京

高级网络架构师

社招10年以上运维工程师岗

更新于 2025-10-16北京

阿里云智能-DCN网络研发高级技术专家-杭州

社招8年以上云智能集团

1、技术方案设计 • 收集、识别、分析DCN， AI infra 需求，并确定技术方案的目标、范围和交付成果 • 基于需求分析，进行技术可行性分析和方案评审，选择合适的技术选型、功能设计、技术架构、数据架构和开发流程等 2、技术实现 • 基于技术方案的拆解，按照任务目标和产出规范，完成任务/子任务的设计、编码开发和系统功能实现 • 负责核心功能的架构与代码模板的编写，开发与维护系统公用核心模块，技术架构重构、优化等 • 对编码进行阶段性的讨论和CodeReview，并通过调试优化，推动代码成功部署 • 对开发中和部署后的程序进行必要的维护和迭代，包括值班oncall、升级工单处置、bug排查、问题诊断、产品体验改善、性能和成本优化等 3、稳定性和性能优化 • 制定稳定性策略，寻找并解决产品系统中的潜在风险和瓶颈，覆盖线上疑难杂症问题，确保系统的安全可靠 • 运用产品优化技术和方法，进行性能优化，提高产品稳定性和性能 4、技术预研 • 跟踪和了解新的DCN， AI infra 的发展趋势，参与UEC， SONiC等开源社区的工作，并根据业务需要提供新的技术支持和建议，让阿里的发展方向和业界的发展方向吻合。 5、技术规划 • 理解AI infra的战略及重点，基于业务需求作出高可用、高可靠、高拓展性的技术架构规划和落地。

更新于 2025-09-10杭州