logo of kuaishou

快手运维开发工程师

社招全职1-3年J0012地点:北京状态:招聘

任职要求


1、本科及以上学历,计算机、软件工程相关专业,具备互联网业务运维经验;
2、有大型分布式系统的运维和资源管理经验,有 K8S 和 AI 相关运维经验优先;
3、具备扎实的计算机软件开发基础知识,精通 Linux 操作系统、网络、存储等相关原理;
4、熟悉…
登录查看完整任职要求
微信扫码,1秒登录

工作职责


1、负责快手大规模分布式系统及在线服务可靠、稳定、高效运行;
2、负责机器学习训练/推理系统的高可用性维护,确保机器学习平台及训练任务稳定运行;
3、负责大模型异构算力支持和稳定性保障,支持新硬件适配接入及相关自动化工具链建设;
4、负责机器学习相关资源的管理与规划,包括预算成本、资源效率提升、统一调度等。
包括英文材料
学历+
分布式系统+
Kubernetes+
Linux+
Bash+
还有更多 •••
相关职位

logo of baidu
社招3年以上ACG

-负责金融联合建模产品各类在线服务和自动化工具开发,保障服务可靠、稳定、高效运行,保障服务稳定性和数据质量,保障产品SLA -基于百度已有基础设施设计金融联合建模相关在线服务稳定性解决方案,包括预防、止损、降级、容量管理、弹性部署、故障分析、流量分配、性能调优等方案 -参与金融联合建模产品各类在线服务和各类模型产品部署运行架构设计,主导服务可靠性相关自动化系统的实现,满足严格的质量与效率要求 -利用百度已有基础设施和开源技术设计和实施产品监控系统、容灾策略和灾难恢复预案,响应和处理生产环境中的紧急事件,最小化服务中断 -关注业界前沿技术动态,负责大规模机器学习模型在线预测系统优化,演进和新接入技术探索和应用

更新于 2024-10-29北京
logo of baidu
社招3年以上ACG

-负责百度ARM云运维体系化建设,包括稳定性治理、资源成本优化、交付效率提升,devops相关工作,构建行业领先的云服务治理平台 -负责百度ARM云自动化运维平台发布实践、实现CI/CD全流程管控,打造智能化运维平台提升效率及服务稳定性 -负责百度ARM云业务稳定性建设(感知预警、预案止损、故障自愈等方向)、大客户方案交付落地及保障工作 -负责百度ARM云业务机房规划和迁移工作 -负责百度ARM云业务IT资源成本优化和运维效率提升工作

更新于 2023-05-04北京|广州
logo of baidu
社招3年以上ACG

-负责百度ARM云运维体系化建设,包括稳定性治理、资源成本优化、交付效率提升,devops相关工作,构建行业领先的云服务治理平台 -负责百度ARM云自动化运维平台发布实践、实现CI/CD全流程管控,打造智能化运维平台提升效率及服务稳定性 -负责百度ARM云业务稳定性建设(感知预警、预案止损、故障自愈等方向)、大客户方案交付落地及保障工作 -负责百度ARM云业务机房规划和迁移工作 -负责百度ARM云业务IT资源成本优化和运维效率提升工作

更新于 2023-05-04北京|广州
logo of jd
社招软件开发岗

1.负责超大规模生产k8s集群运维平台开发,不限于(部署、升级、配置、节点、网络、权限,ebpf可观测)等运维功能平台化开发 2. 按照项目计划,按时提交高质量代码,完成开发任务; 3. 规范文档的编写、维护,以及其他与项目相关工作;

更新于 2025-06-16北京