网易AI平台开发运维工程师
任职要求
1、3年以上游戏AI业务管理经验,熟悉K8S生态及云原生技术栈(服务网格/监控/日志系统)。 2、具备复杂业务迁移能力(如机房搬迁),擅长跨团队协作,熟悉主流公…
工作职责
1、负责AI服务全生命周期的治理工作,制定AI服务重保方案及部署规范(日志/监控/故障处理/SLA); 2、参与基础平台多种异构算力加入,涵盖硬件选型、性能压测、云商能力评估等。 3、参与建设AI平台核心能力,包括日志/监控/镜像分发/服务网格等系统,保障重点业务SLA(如游戏AI玩法上线)以及基础算力管理与调度优化。 4、支撑AIGC、游戏AI等核心业务的高效稳定运行。
1、负责阿里云大数据产品,Maxcompute、Hologres、DataWorks等产品运维工作,包括服务稳定性体系建设、资源成本优化与运维效率提升等工作内容; 2、负责大数据运维平台ABM里对应产品运维功能的设计和开发,在运维中台能力之上,用软件工程和AI技术提升运维质量及效率; 3、负责重大技术项目的组织、方案制定及整体协调,如架构改进、大促重保等,保障项目的有效落地并获得技术和业务上的收益价值。
1、使用Python等开发语言及相关框架(如FastAPI、Flask等)参与AI开发者平台的开发与运维; 2、熟悉Docker等容器化技术,完成AI平台的开发、测试与部署工作; 3、理解主流大模型及开源框架的技术原理,为业务场景提供高效、低成本的技术选型方案提供建议; 4、跟踪AI领域(大模型、生成式AI、多模态等)的前沿技术动态,结合公司业务场景探索创新应用方向,参与输出技术可行性分析报告; 5、熟练使用AI开发者平台进行智能体开发、流程自动化及集成,优化模型推理效率与资源消耗,支持业务场景的快速迭代; 6、推动各领域AI应用工程化落地,指导各领域设计并实现安全、高可靠性、高性能、高扩展的AI应用,满足业务需求;
1、负责阿里云AI人工智能平台(PAI)运维工作,建设超大规模GPU集群稳定性体系,包括可观测性链路、监控报警,故障应急及处置、SLA可用率度量提升等 2、研发AI运维管控平台,通过自动化提升运维效率,包括交付&变更CICD、GPU节点交付&自愈、智能诊断定界等 3、落地AIOps智能运维,通过AI算法提升稳定性,包括异常检测、根因定位及基于大模型&智能体Agent运维落地等 4、负责稳定性架构设计及项目组织推动落地,包括基础架构云原生化、跨AZ高可用架构、产品可运维性架构演进等