网易AI平台开发运维工程师
社招全职3-5年网易游戏(互娱)地点:广州状态:招聘
任职要求
1、3年以上游戏AI业务管理经验,熟悉K8S生态及云原生技术栈(服务网格/监控/日志系统)。 2、具备复杂业务迁移能力(如机房搬迁),擅长跨团队协作,熟悉主流公有云服务。 3、熟悉AI服务在游戏场景下的部署调优者优先。 4、熟悉分布式存储(CubeFS)、以及大规模数据处理经验者优先。 5、具备GPU资源管理经验优先。
工作职责
1、负责AI服务全生命周期的治理工作,制定AI服务重保方案及部署规范(日志/监控/故障处理/SLA); 2、参与基础平台多种异构算力加入,涵盖硬件选型、性能压测、云商能力评估等。 3、参与建设AI平台核心能力,包括日志/监控/镜像分发/服务网格等系统,保障重点业务SLA(如游戏AI玩法上线)以及基础算力管理与调度优化。 4、支撑AIGC、游戏AI等核心业务的高效稳定运行。
包括英文材料
Kubernetes+
https://kubernetes.io/docs/tutorials/kubernetes-basics/
This tutorial provides a walkthrough of the basics of the Kubernetes cluster orchestration system.
https://kubernetes.io/zh-cn/docs/tutorials/kubernetes-basics/
本教程介绍 Kubernetes 集群编排系统的基础知识。每个模块包含关于 Kubernetes 主要特性和概念的一些背景信息,还包括一个在线教程供你学习。
https://www.youtube.com/watch?v=s_o8dwzRlu4
Hands-On Kubernetes Tutorial | Learn Kubernetes in 1 Hour - Kubernetes Course for Beginners
https://www.youtube.com/watch?v=X48VuDVv0do
Full Kubernetes Tutorial | Kubernetes Course | Hands-on course with a lot of demos
CubeFS+
[英文] Introduction
https://cubefs.io/docs/master/overview/introduction.html
CubeFS is a next-generation cloud-native storage product that is currently a graduated open-source project hosted by the Cloud Native Computing Foundation (CNCF).
https://www.raptorswithhats.com/cubefs/
A new distributed filesystem caught my interest recently - CubeFS.
相关职位
社招3年以上诚云科技
1、负责阿里云大数据产品,Maxcompute、Hologres、DataWorks等产品运维工作,包括服务稳定性体系建设、资源成本优化与运维效率提升等工作内容; 2、负责大数据运维平台ABM里对应产品运维功能的设计和开发,在运维中台能力之上,用软件工程和AI技术提升运维质量及效率; 3、负责重大技术项目的组织、方案制定及整体协调,如架构改进、大促重保等,保障项目的有效落地并获得技术和业务上的收益价值。
更新于 2025-10-17
社招3年以上诚云科技
1、负责阿里云AI人工智能平台(PAI)运维工作,建设超大规模GPU集群稳定性体系,包括可观测性链路、监控报警,故障应急及处置、SLA可用率度量提升等 2、研发AI运维管控平台,通过自动化提升运维效率,包括交付&变更CICD、GPU节点交付&自愈、智能诊断定界等 3、落地AIOps智能运维,通过AI算法提升稳定性,包括异常检测、根因定位及基于大模型&智能体Agent运维落地等 4、负责稳定性架构设计及项目组织推动落地,包括基础架构云原生化、跨AZ高可用架构、产品可运维性架构演进等
更新于 2025-10-12
社招5年以上诚云科技
1、负责阿里云AI人工智能平台(PAI)运维工作,建设超大规模GPU集群稳定性体系,包括可观测性链路、监控报警,故障应急及处置、SLA可用率度量提升等 2、研发AI运维管控平台,通过自动化提升运维效率,包括交付&变更CICD、GPU节点交付&自愈、智能诊断定界等 3、落地AIOps智能运维,通过AI算法提升稳定性,包括异常检测、根因定位及基于大模型&智能体Agent运维落地等 4、负责稳定性架构设计及项目组织推动落地,包括基础架构云原生化、跨AZ高可用架构、产品可运维性架构演进等
更新于 2025-09-30