快手运维开发工程师
社招全职1-3年J0012地点:北京状态:招聘
任职要求
1、本科及以上学历,计算机、软件工程相关专业,具备互联网业务运维经验; 2、有大型分布式系统的运维和资源管理经验,有 K8S 和 AI 相关运维经验优先; 3、具备扎实的计算机软件开发基础知识,精通 Linux 操作系统、网络、存储等相关原理; 4、熟悉…
登录查看完整任职要求
微信扫码,1秒登录
工作职责
1、负责快手大规模分布式系统及在线服务可靠、稳定、高效运行; 2、负责机器学习训练/推理系统的高可用性维护,确保机器学习平台及训练任务稳定运行; 3、负责大模型异构算力支持和稳定性保障,支持新硬件适配接入及相关自动化工具链建设; 4、负责机器学习相关资源的管理与规划,包括预算成本、资源效率提升、统一调度等。
包括英文材料
学历+
分布式系统+
https://www.distributedsystemscourse.com/
The home page of a free online class in distributed systems.
https://www.youtube.com/watch?v=7VbL89mKK3M&list=PLOE1GTZ5ouRPbpTnrZ3Wqjamfwn_Q5Y9A
Kubernetes+
https://kubernetes.io/docs/tutorials/kubernetes-basics/
This tutorial provides a walkthrough of the basics of the Kubernetes cluster orchestration system.
https://kubernetes.io/zh-cn/docs/tutorials/kubernetes-basics/
本教程介绍 Kubernetes 集群编排系统的基础知识。每个模块包含关于 Kubernetes 主要特性和概念的一些背景信息,还包括一个在线教程供你学习。
https://www.youtube.com/watch?v=s_o8dwzRlu4
Hands-On Kubernetes Tutorial | Learn Kubernetes in 1 Hour - Kubernetes Course for Beginners
https://www.youtube.com/watch?v=X48VuDVv0do
Full Kubernetes Tutorial | Kubernetes Course | Hands-on course with a lot of demos
Linux+
https://ryanstutorials.net/linuxtutorial/
Ok, so you want to learn how to use the Bash command line interface (terminal) on Unix/Linux.
https://ubuntu.com/tutorials/command-line-for-beginners
The Linux command line is a text interface to your computer.
https://www.youtube.com/watch?v=6WatcfENsOU
In this Linux crash course, you will learn the fundamental skills and tools you need to become a proficient Linux system administrator.
https://www.youtube.com/watch?v=v392lEyM29A
Never fear the command line again, make it fear you.
https://www.youtube.com/watch?v=ZtqBQ68cfJc
Bash+
[英文] The Bash Guide
https://guide.bash.academy/
A quality-driven guide through the shell's many features.
https://www.youtube.com/watch?v=tK9Oc6AEnR4
Understanding how to use bash scripting will enhance your productivity by automating tasks, streamlining processes, and making your workflow more efficient.
还有更多 •••
相关职位
社招3年以上ACG
-负责金融联合建模产品各类在线服务和自动化工具开发,保障服务可靠、稳定、高效运行,保障服务稳定性和数据质量,保障产品SLA -基于百度已有基础设施设计金融联合建模相关在线服务稳定性解决方案,包括预防、止损、降级、容量管理、弹性部署、故障分析、流量分配、性能调优等方案 -参与金融联合建模产品各类在线服务和各类模型产品部署运行架构设计,主导服务可靠性相关自动化系统的实现,满足严格的质量与效率要求 -利用百度已有基础设施和开源技术设计和实施产品监控系统、容灾策略和灾难恢复预案,响应和处理生产环境中的紧急事件,最小化服务中断 -关注业界前沿技术动态,负责大规模机器学习模型在线预测系统优化,演进和新接入技术探索和应用
更新于 2024-10-29北京
社招3年以上ACG
-负责百度ARM云运维体系化建设,包括稳定性治理、资源成本优化、交付效率提升,devops相关工作,构建行业领先的云服务治理平台 -负责百度ARM云自动化运维平台发布实践、实现CI/CD全流程管控,打造智能化运维平台提升效率及服务稳定性 -负责百度ARM云业务稳定性建设(感知预警、预案止损、故障自愈等方向)、大客户方案交付落地及保障工作 -负责百度ARM云业务机房规划和迁移工作 -负责百度ARM云业务IT资源成本优化和运维效率提升工作
更新于 2023-05-04北京|广州
社招3年以上ACG
-负责百度ARM云运维体系化建设,包括稳定性治理、资源成本优化、交付效率提升,devops相关工作,构建行业领先的云服务治理平台 -负责百度ARM云自动化运维平台发布实践、实现CI/CD全流程管控,打造智能化运维平台提升效率及服务稳定性 -负责百度ARM云业务稳定性建设(感知预警、预案止损、故障自愈等方向)、大客户方案交付落地及保障工作 -负责百度ARM云业务机房规划和迁移工作 -负责百度ARM云业务IT资源成本优化和运维效率提升工作
更新于 2023-05-04北京|广州