蚂蚁金服蚂蚁集团-Kubernetes调度器高级工程师-具身智能方向

社招全职5年以上LB技术-数据2025-12-23地点：上海状态：招聘

扫码手机上打开

任职要求

1. 5年以上Kubernetes调度器核心开发经验
2. 精通Go语言，有大型Go项目架构设计经验
3. 深入理解kube-scheduler完整架构、调度周期和绑定周期
4. 有CPU密集型工作负载调度优化经验，熟悉CPU亲和性、NUMA调度、CPU资源隔离
5. 熟悉数据处理任务特性（批处理、流处理、DAG任务），并有相关调度经验
6. 有大规模CPU集群（500+节点）调度性能调优经验，熟悉CPU资源争抢与隔离问题
7. 精通调度算法在数据密集型场景下的应用与优化
8. 熟悉Kubernetes资源模型、QoS类、优先级/抢占机制
9. 有自定义调…

登录查看完整任职要求

微信扫码，1秒登录

工作职责

职位概述：
在Kubernetes调度器领域拥有5年以上深度开发经验的高级工程师。将专注于CPU密集型数据处理任务与机器人数据流处理的调度优化，设计并实现面向大规模CPU集群的高效调度策略。深入理解数据处理工作负载的特点，构建能够满足低延迟、高吞吐需求的调度系统，为我们的机器人数据平台提供稳定、高效的调度能力。将调度理论与实际业务场景深度结合，解决生产环境中的复杂调度挑战。

核心职责：
1.主导面向CPU密集型数据处理任务（如机器人感知数据、图像处理）的Kubernetes调度器定制与优化；
2.设计并实现针对流式数据处理流水线的任务调度策略，优化任务启动延迟和数据局部性；
3.开发基于优先级、任务依赖关系和工作负载特征的智能调度插件；
4.优化大规模CPU集群的资源利用率；
5.实现数据感知调度机制，将计算任务调度到数据所在节点或区域，减少数据传输开销；
6.为机器人数据处理流水线设计任务抢占与优先级调度策略，确保高优先级任务的服务质量；
7.构建调度策略仿真与评估系统，对调度算法进行离线测试与验证；
8.与数据平台团队合作，将调度策略与数据处理框架（如Apache Flink、Spark Streaming、Ray）深度集成。

📮 投递简历 ✨AI模拟面试

难度：

包括英文材料

Kubernetes+

Go+

系统设计+

性能调优+

还有更多 •••

登录查看完整学习资料

相关职位

云原生高级开发工程师/专家-云原生调度方向

社招3年以上后端开发

容器统一调度与在离线混部方向岗位职责 1.负责公司容器调度平台的架构设计和核心功能开发，包括容器资源管理、调度优化、弹性伸缩等模块。 2.设计和实现在线与离线任务的混部调度方案，优化集群资源的整体利用率，实现计算、存储和网络资源的高效调度。 3.针对不同业务场景，研究并改进 Kubernetes 调度算法，包括任务优先级、抢占机制、节点选择等，提升集群的资源分配效率和稳定性。 4.与多集群管理平台、资源隔离、QoS 管理等模块协同工作，确保在复杂场景下的资源调度策略具备高可用性和可扩展性。 5.跟踪云原生生态的最新发展趋势，研究并应用新技术以提升系统性能和调度灵活性。 6.支持系统的性能监控与故障诊断，参与系统优化和技术问题的快速解决，保障系统的高效稳定运行。

更新于 2026-04-09上海|北京|杭州

大数据架构-分布式计算引擎高级工程师

社招6年以上核心本地商业-基

1.负责构建基于Kubernetes的云原生分布式计算平台，支撑离线计算、实时流处理等多场景需求，实现计算资源的弹性伸缩与高效调度； 2.解决数仓生产场景下业务规模增长带来的引擎扩展性问题，通过优化Shuffle服务、向量化执行引擎以及内核改造，支撑每天百万级Spark Job，EB级数据处理，单作业百TB Shuffle，不断提升生产引擎稳定性和扩展性，保障核心数据的稳定产出； 3.综合调度、引擎层内核改造优化等多种技术方案持续提升计算效率，降低计算成本； 4.设计并实现云原生环境下的弹性扩缩容策略，结合K8s编排能力与计算引擎特性，应对流量洪峰与资源碎片化挑战。

更新于 2025-08-08北京

微信大数据-后台开发高级工程师（停招）

社招WXG技术

1.负责Kubernetes 集群的管理和优化，保障高可用，提升集群性能； 2.支持业务相关的任务与资源调度需求，开发并维护相关后台管理工具； 3.跟踪云原生领域的最新技术动态，推动技术在团队内的落地和应用。

更新于 2025-05-30深圳

腾讯云AI代码助手-高级SRE工程师

社招3年以上CSIG技术

1.负责 AI 代码助手平台线上业务系统的日常运维，保障系统 7×24 小时稳定运行； 2.设计并完善 AI 代码助手的监控体系，实时监控系统性能、资源利用率、用户并发连接数等关键指标，通过数据分析提前发现潜在风险并制定解决方案； 3.制定并实施系统可靠性提升方案，优化 AI 代码助手的系统架构与部署，增强系统在高并发场景下的可用性和容错能力； 4.开发和维护自动化运维工具与脚本，实现服务器部署、配置管理、故障处理等运维任务的自动化，提升运维效率； 5.建立并完善应急响应机制，制定应急预案并定期演练，在系统故障时快速响应恢复；深入分析故障，制定改进措施避免复发； 6.结合业务发展和用户增长预测，对 AI 代码助手系统进行容量规划和性能评估，提前调整服务器资源，优化系统性能； 7.负责研发效能提升工作，搭建高效的流水线，实现代码自动化构建、测试与部署，减少人工干预，提升交付速度。

更新于 2025-05-20西安