logo of aliyun

阿里云阿里云智能-k8s开发工程师-杭州

社招全职3年以上云智能集团地点:杭州状态:招聘

任职要求


1. 核心技能(必备)

• 3年以上K8s实战经验,精通K8s调度原理(节点亲和性/反亲和性、污点与容忍、资源QoS) ,能独立解决本地IDC物理机与容器调度的兼容性问题。

• 熟悉本地IDC基础设施运维,了解物理机部署、网络拓扑(VLAN/路由)、本地存储(hostPath/NFS)配置,能联动IDC机房团队排查硬件资源故障。

• 具备K8s任务调度优化案例,如曾基于Job/CronJob实现本地IDC的定时数据备份、硬件资源定向调度、任务失败…
登录查看完整任职要求
微信扫码,1秒登录

工作职责


1. 主导K8s在本地IDC的调度体系设计,包括节点亲和性配置、资源配额管控、污点容忍策略,确保业务任务优先调度至指定物理机,降低跨机房网络损耗与资源竞争。

2. 负责本地IDC容器化任务(Job/CronJob)的全生命周期管理,设计故障重试、超时释放、资源回收机制,解决物理机宕机、存储挂载异常等场景下的任务稳定性问题。

3. 优化K8s与本地IDC基础设施的集成方案,包括私有镜像仓库(如Harbor)对接、NFS/iSCSI本地存储挂载、物理机硬件(GPU/SSD)资源识别与调度,满足业务对特殊硬件的依赖需求。

4. 搭建本地IDC的K8s监控与运维体系,集成Prometheus/Grafana采集物理机CPU温度、磁盘IO、容器任务成功率等指标,输出运维 Dashboard 并制定告警策略,保障IDC资源可视可控。

5. 对接业务团队,提供K8s调度层的技术支持,解决本地IDC场景下的容器调度冲突、资源不足、任务执行失败等问题,输出标准化的调度配置模板(如Job YAML)。
包括英文材料
Kubernetes+
Helm+
Prometheus+
还有更多 •••
相关职位

logo of didi
校招工程-后端类

1、参与公司cpu计算资源paas平台的研发,通过计算产品的研发引导用户提高计算产品使用效率 2、参与公司cpu计算资源容量管理,包括k8s集群node运维系统研发、混合云资源管理、弹性产品和容量系统的设计和开发。通过如上工作,提高公司cpu计算资源的使用效率。

更新于 2025-08-18北京|杭州
logo of antgroup
社招3年以上技术类-开发

1、 负责蚂蚁AI领域的稳定性工作,包括各类模型和引擎的基础稳定性能力建设,应急运维等工作; 2、 负责蚂蚁Tab3、搜索、推荐等业务的底层引擎的稳定性保障工作,包括slo的定制、跟踪、action改进等; 3、 负责组内高可用架构工作,进行业务稳定性和平台的中长期规划,主导技术难题攻关,持续提升系统在大规模分布式系统环境下高并发,保证系统的安全、稳定、快速运行; 4、 负责组内AI场景(短视频、搜推广、大模型业务)的稳定性平台和组件建设,包括运维平台、应急工具、提效能力等方向,通过技术手段解决稳定性问题;

更新于 2025-05-07杭州
logo of aliyun
社招3年以上技术类-质量保证

1. 测试框架与工具开发 a. 负责 数据治理平台平台核心功能的测试用例设计、自动化测试脚本开发及测试框架搭建。 b. 基于大数据场景(如数据建模、任务调度、数据质量监控等)设计端到端测试方案。 2. 性能与稳定性测试 a. 针对数据处理流程(ETL、数据同步、任务调度)进行性能压测与瓶颈分析,保障高并发、大规模数据场景下的系统稳定性。 b. 设计并执行混沌测试、容灾测试等可靠性验证方案 3. 缺陷管理与质量保障 a. 使用缺陷跟踪工具记录、跟踪并推动问题修复,参与代码评审和测试覆盖率分析。 b. 协助产品团队优化数据开发流程,提升平台易用性与质量。 4. 技术协同与创新 ● 与研发、产品经理协作,参与需求评审、技术方案设计,提前识别潜在风险。 ● 探索 AI/ML 在测试中的应用(如自动生成测试用例、异常检测),推动测试效率提升。 ● 团队管理与协作 ● 团队建设:负责测试团队的人员管理、任务分配与绩效评估,制定团队目标并推动落地。 ● 流程优化:主导测试流程标准化(如测试用例管理、自动化测试策略),提升团队协作效率。 ● 技术指导:为团队成员提供技术培训与指导,推动团队技术能力提升。 ● 跨团队协调:与产品、研发、运维团队紧密合作,确保测试工作与业务目标对齐。 ● 资源规划:根据项目需求合理分配人力、工具和预算资源,保障测试工作的高效执行。

更新于 2025-06-05杭州
logo of bytedance
社招2年以上QXSP

1、根据业务场景设计相关架构; 2、负责 IaaS & PaaS 平台架构设计和规划; 3、实现相关容器、虚机的编排/调度能力; 4、不断迭代优化现有框架,满足业务需求且能具备更高的性能。

更新于 2021-01-22杭州