蚂蚁金服蚂蚁集团-Kubernetes调度器高级工程师-具身智能方向
任职要求
1. 5年以上Kubernetes调度器核心开发经验 2. 精通Go语言,有大型Go项目架构设计经验 3. 深入理解kube-scheduler完整架构、调度周期和绑定周期 4. 有CPU密集型工作负载调度优化经验,熟悉CPU亲和性、NUMA调度、CPU资源隔离 5. 熟悉数据处理任务特性(批处理、流处理、DAG任务),并有相关调度经验 6. 有大规模CPU集群(500+节点)调度性能调优经验,熟悉CPU资源争抢与隔离问题 7. 精通调度算法在数据密集型场景下的应用与优化 8. 熟悉Kubernetes资源模型、QoS类、优先级/抢占机制 9. 有自定义调…
工作职责
职位概述: 在Kubernetes调度器领域拥有5年以上深度开发经验的高级工程师。将专注于CPU密集型数据处理任务与机器人数据流处理的调度优化,设计并实现面向大规模CPU集群的高效调度策略。深入理解数据处理工作负载的特点,构建能够满足低延迟、高吞吐需求的调度系统,为我们的机器人数据平台提供稳定、高效的调度能力。将调度理论与实际业务场景深度结合,解决生产环境中的复杂调度挑战。 核心职责: 1.主导面向CPU密集型数据处理任务(如机器人感知数据、图像处理)的Kubernetes调度器定制与优化; 2.设计并实现针对流式数据处理流水线的任务调度策略,优化任务启动延迟和数据局部性; 3.开发基于优先级、任务依赖关系和工作负载特征的智能调度插件; 4.优化大规模CPU集群的资源利用率; 5.实现数据感知调度机制,将计算任务调度到数据所在节点或区域,减少数据传输开销; 6.为机器人数据处理流水线设计任务抢占与优先级调度策略,确保高优先级任务的服务质量; 7.构建调度策略仿真与评估系统,对调度算法进行离线测试与验证; 8.与数据平台团队合作,将调度策略与数据处理框架(如Apache Flink、Spark Streaming、Ray)深度集成。
容器统一调度与在离线混部方向 岗位职责 1.负责公司容器调度平台的架构设计和核心功能开发,包括容器资源管理、调度优化、弹性伸缩等模块。 2.设计和实现在线与离线任务的混部调度方案,优化集群资源的整体利用率,实现计算、存储和网络资源的高效调度。 3.针对不同业务场景,研究并改进 Kubernetes 调度算法,包括任务优先级、抢占机制、节点选择等,提升集群的资源分配效率和稳定性。 4.与多集群管理平台、资源隔离、QoS 管理等模块协同工作,确保在复杂场景下的资源调度策略具备高可用性和可扩展性。 5.跟踪云原生生态的最新发展趋势,研究并应用新技术以提升系统性能和调度灵活性。 6.支持系统的性能监控与故障诊断,参与系统优化和技术问题的快速解决,保障系统的高效稳定运行。
1.负责构建基于Kubernetes的云原生分布式计算平台,支撑离线计算、实时流处理等多场景需求,实现计算资源的弹性伸缩与高效调度; 2.解决数仓生产场景下业务规模增长带来的引擎扩展性问题,通过优化Shuffle服务、向量化执行引擎以及内核改造,支撑每天百万级Spark Job,EB级数据处理,单作业百TB Shuffle,不断提升生产引擎稳定性和扩展性,保障核心数据的稳定产出; 3.综合调度、引擎层内核改造优化等多种技术方案持续提升计算效率,降低计算成本; 4.设计并实现云原生环境下的弹性扩缩容策略,结合K8s编排能力与计算引擎特性,应对流量洪峰与资源碎片化挑战。
1.负责Kubernetes 集群的管理和优化,保障高可用,提升集群性能; 2.支持业务相关的任务与资源调度需求,开发并维护相关后台管理工具; 3.跟踪云原生领域的最新技术动态,推动技术在团队内的落地和应用。

1. 负责公司容器与云原生平台的整体技术规划与架构设计 主导 Kubernetes 平台的整体架构设计、演进路线和技术选型 构建稳定、高可用、可扩展的容器运行时与调度平台,支撑核心业务系统 2. 建设和优化容器基础设施能力 深度参与 Kubernetes 核心组件(Scheduler、Controller、CRI、CNI、CSI 等)的定制、调优与问题排查 设计并落地多集群、多可用区、混合云、多云架构 提升集群稳定性、资源利用率与调度效率(弹性伸缩、资源超卖、QoS、潮汐调度等) 3. 打造云原生平台化能力 建设容器平台的 PaaS / 内部平台能力(应用发布、灰度发布、弹性伸缩、服务治理等) 推动 GitOps、声明式交付、自动化运维体系建设 与 CI/CD、服务网格、可观测性体系(Metrics、Logs、Tracing)深度集成 4. 复杂问题处理与稳定性保障 负责容器平台重大故障的技术分析、定位与治理方案 建立平台级 SLO / SLA、容量规划、稳定性与风险评估体系 优化平台在大规模业务、高并发场景下的性能与可靠性 5. 技术影响力与团队建设 负责容器团队的技术方向把控、技术评审与技术债治理 指导和培养高级工程师,提升团队整体技术深度 推动云原生最佳实践在公司内部的落地与规范化