logo of netease

网易AI平台开发运维工程师

社招全职3-5年网易游戏(互娱)地点:广州状态:招聘

任职要求


1、3年以上游戏AI业务管理经验,熟悉K8S生态及云原生技术栈(服务网格/监控/日志系统)。
2、具备复杂业务迁移能力(如机房搬迁),擅长跨团队协作,熟悉主流公有云服务。
3、熟悉AI服务在游戏场景下的部署调优者优先。
4、熟悉分布式存储(CubeFS)、以及大规模数据处理经验者优先。
5、具备GPU资源管理经验优先。

工作职责


1、负责AI服务全生命周期的治理工作,制定AI服务重保方案及部署规范(日志/监控/故障处理/SLA);
2、参与基础平台多种异构算力加入,涵盖硬件选型、性能压测、云商能力评估等。
3、参与建设AI平台核心能力,包括日志/监控/镜像分发/服务网格等系统,保障重点业务SLA(如游戏AI玩法上线)以及基础算力管理与调度优化。
4、支撑AIGC、游戏AI等核心业务的高效稳定运行。
包括英文材料
Kubernetes+
CubeFS+
相关职位

logo of aliyun
社招3年以上诚云科技

1、负责阿里云大数据产品,Maxcompute、Hologres、DataWorks等产品运维工作,包括服务稳定性体系建设、资源成本优化与运维效率提升等工作内容; 2、负责大数据运维平台ABM里对应产品运维功能的设计和开发,在运维中台能力之上,用软件工程和AI技术提升运维质量及效率; 3、负责重大技术项目的组织、方案制定及整体协调,如架构改进、大促重保等,保障项目的有效落地并获得技术和业务上的收益价值。

更新于 2025-10-17
logo of aliyun
社招3年以上诚云科技

1、负责阿里云AI人工智能平台(PAI)运维工作,建设超大规模GPU集群稳定性体系,包括可观测性链路、监控报警,故障应急及处置、SLA可用率度量提升等 2、研发AI运维管控平台,通过自动化提升运维效率,包括交付&变更CICD、GPU节点交付&自愈、智能诊断定界等 3、落地AIOps智能运维,通过AI算法提升稳定性,包括异常检测、根因定位及基于大模型&智能体Agent运维落地等 4、负责稳定性架构设计及项目组织推动落地,包括基础架构云原生化、跨AZ高可用架构、产品可运维性架构演进等

更新于 2025-10-12
logo of aliyun
社招5年以上诚云科技

1、负责阿里云AI人工智能平台(PAI)运维工作,建设超大规模GPU集群稳定性体系,包括可观测性链路、监控报警,故障应急及处置、SLA可用率度量提升等 2、研发AI运维管控平台,通过自动化提升运维效率,包括交付&变更CICD、GPU节点交付&自愈、智能诊断定界等 3、落地AIOps智能运维,通过AI算法提升稳定性,包括异常检测、根因定位及基于大模型&智能体Agent运维落地等 4、负责稳定性架构设计及项目组织推动落地,包括基础架构云原生化、跨AZ高可用架构、产品可运维性架构演进等

更新于 2025-09-30
logo of horizon
社招软件序列

【岗位职责】: - 参与 Kubernetes 集群的日常维护与管理,包括部署、扩容、升级与故障处理; - 配合开发团队进行平台资源的调度支持,保障业务系统稳定运行; - 运维相关流程与规范的落地实施,执行平台日常变更操作; - 参与监控、日志、告警等系统的配置和使用,支持问题定位; - 协助使用云平台(如阿里云、AWS)核心服务,完成资源配置与变更; - 对已有自动化工具进行使用和简单脚本改进(Shell/Python)。

更新于 2025-08-06