阿里云阿里云智能-k8s开发工程师-杭州
社招全职3年以上云智能集团地点:杭州状态:招聘
任职要求
1. 核心技能(必备) • 3年以上K8s实战经验,精通K8s调度原理(节点亲和性/反亲和性、污点与容忍、资源QoS) ,能独立解决本地IDC物理机与容器调度的兼容性问题。 • 熟悉本地IDC基础设施运维,了解物理机部署、网络拓扑(VLAN/路由)、本地存储(hostPath/NFS)配置,能联动IDC机房团队排查硬件资源故障。 • 具备K8s任务调度优化案例,如曾基于Job/CronJob实现本地IDC的定时数据备份、硬件资源定向调度、任务失败…
登录查看完整任职要求
微信扫码,1秒登录
工作职责
1. 主导K8s在本地IDC的调度体系设计,包括节点亲和性配置、资源配额管控、污点容忍策略,确保业务任务优先调度至指定物理机,降低跨机房网络损耗与资源竞争。 2. 负责本地IDC容器化任务(Job/CronJob)的全生命周期管理,设计故障重试、超时释放、资源回收机制,解决物理机宕机、存储挂载异常等场景下的任务稳定性问题。 3. 优化K8s与本地IDC基础设施的集成方案,包括私有镜像仓库(如Harbor)对接、NFS/iSCSI本地存储挂载、物理机硬件(GPU/SSD)资源识别与调度,满足业务对特殊硬件的依赖需求。 4. 搭建本地IDC的K8s监控与运维体系,集成Prometheus/Grafana采集物理机CPU温度、磁盘IO、容器任务成功率等指标,输出运维 Dashboard 并制定告警策略,保障IDC资源可视可控。 5. 对接业务团队,提供K8s调度层的技术支持,解决本地IDC场景下的容器调度冲突、资源不足、任务执行失败等问题,输出标准化的调度配置模板(如Job YAML)。
包括英文材料
Kubernetes+
https://kubernetes.io/docs/tutorials/kubernetes-basics/
This tutorial provides a walkthrough of the basics of the Kubernetes cluster orchestration system.
https://kubernetes.io/zh-cn/docs/tutorials/kubernetes-basics/
本教程介绍 Kubernetes 集群编排系统的基础知识。每个模块包含关于 Kubernetes 主要特性和概念的一些背景信息,还包括一个在线教程供你学习。
https://www.youtube.com/watch?v=s_o8dwzRlu4
Hands-On Kubernetes Tutorial | Learn Kubernetes in 1 Hour - Kubernetes Course for Beginners
https://www.youtube.com/watch?v=X48VuDVv0do
Full Kubernetes Tutorial | Kubernetes Course | Hands-on course with a lot of demos
Helm+
[英文] Introduction to Helm
https://helm.sh/docs/intro/
Are you new to Helm? This is the place to start!
https://www.baeldung.com/ops/kubernetes-helm
In this tutorial, we’ll understand the basics of Helm and how they form a powerful tool for working with Kubernetes resources.
Prometheus+
https://grafana.com/docs/grafana/latest/getting-started/get-started-grafana-prometheus/
Prometheus is an open source monitoring system for which Grafana provides out-of-the-box support.
https://prometheus.io/docs/tutorials/getting_started/
Prometheus is a system monitoring and alerting system.
还有更多 •••
相关职位
社招1年以下技术类-开发
1. 负责供应链数字化 ToB 项目的后端功能开发,参与需求评审,准确理解业务逻辑。 2. 独立完成分配模块的代码编写、单元测试及文档撰写,确保代码符合团队规范,具备良好的可读性和可维护性;按时保质完成分配的开发任务,确保模块顺利上线。 3. 协助维护线上系统的稳定性,参与日常 Bug 修复、数据排查及简单的性能优化工作。 4. 参与项目交付过程中的数据清洗、配置验证及用户验收测试(UAT)支持工作。 5. 参与团队内部的技术分享会,持续提升个人及团队的技术工程能力。
更新于 2026-03-31杭州
校招工程-后端类
1、参与公司cpu计算资源paas平台的研发,通过计算产品的研发引导用户提高计算产品使用效率 2、参与公司cpu计算资源容量管理,包括k8s集群node运维系统研发、混合云资源管理、弹性产品和容量系统的设计和开发。通过如上工作,提高公司cpu计算资源的使用效率。
更新于 2025-08-18北京|杭州
社招3年以上技术类-开发
1、负责 WMS(仓储管理系统)及数字园区系统的整体技术架构设计、选型与核心代码编写。 2、主导系统高可用、高并发及可扩展性设计,解决分布式环境下的技术难题。 3、制定技术规范、代码标准及开发流程,组织代码评审(Code Review),确保系统质量。 4、推动技术规范制定,持续优化系统性能、稳定性与可扩展性。 5、指导初中级开发人员成长,培养团队技术能力。
更新于 2026-04-01杭州
