logo of kuaishou

快手容器调度&大模型推理AI-Infra研发工程师

社招全职3-5年J0012地点:北京 | 杭州状态:招聘

任职要求


1、本科及以上学历,计算机相关专业背景,具有快速学习的能力,愿意不断突破技术瓶颈,乐于探索未知领域;
2、具备扎实的数据结构和代码算法基本功,有强烈的责任心和创新意识,熟练掌握至少一门编程(Golang、…
登录查看完整任职要求
微信扫码,1秒登录

工作职责


1、负责快手容器云超大规模算力平台的架构设计与开发工作,包括但不限于资源调度、服务编排及容器引擎等多领域场景;
2、基于云原生技术完善海量异构资源的多集群联邦和统一调度能力,构建低成本、高弹性的计算、存储、网络算力基座,致力于持续提升资源效率;
3、参与完善服务微架构及性能瓶颈分析观测体系,深入支撑容器平台及快手各类业务的全链路稳定性问题,持续提升业务运行质量;
4、云原生及大模型推理场景AI-Infra领域前沿技术,提升大规模的推理场景GPU利用效率。
包括英文材料
学历+
数据结构+
算法+
还有更多 •••
相关职位

logo of meituan
社招3年以上核心本地商业-基

负责美团容器平台调度、编排等核心系统的设计、开发工作,具体包括: 1.设计和实现大规模、高效、智能的基于Kubernetes的调度引擎。 2.维护美团海量kubernetes集群,完善可观测体系,保障稳定性。 3.参与调度方向及细分领域的研发,提升资源使用率,为公司降低成本。

更新于 2025-06-03北京
logo of xiaohongshu
社招3年以上后端开发

容器统一调度与在离线混部方向 岗位职责 1.负责公司容器调度平台的架构设计和核心功能开发,包括容器资源管理、调度优化、弹性伸缩等模块。 2.设计和实现在线与离线任务的混部调度方案,优化集群资源的整体利用率,实现计算、存储和网络资源的高效调度。 3.针对不同业务场景,研究并改进 Kubernetes 调度算法,包括任务优先级、抢占机制、节点选择等,提升集群的资源分配效率和稳定性。 4.与多集群管理平台、资源隔离、QoS 管理等模块协同工作,确保在复杂场景下的资源调度策略具备高可用性和可扩展性。 5.跟踪云原生生态的最新发展趋势,研究并应用新技术以提升系统性能和调度灵活性。 6.支持系统的性能监控与故障诊断,参与系统优化和技术问题的快速解决,保障系统的高效稳定运行。

更新于 2026-04-09上海|北京|杭州
logo of xiaohongshu
校招基础后端

容器方向: 1、Kubernetes架构设计与开发,在深入理解Kubernetes原生架构基础上,参与Kubernetes核心组件开发; 2、参与Kubernetes集群全面性能分析,并优化关键节点、组件和流程,以提升整体系统的稳定性和响应速度; 3、参与Kubernetes集群的稳定部署、监控与维护工作,确保集群在高负载环境下的可靠运行,并完善平台化能力; 4、参与公司容器调度平台的架构设计和核心功能开发,包括容器资源管理、调度优化、应用和资源弹性等; 5、参与公司混部调度方案落地,优化集群资源的整体利用率;研究并改进 Kubernetes 调度算法,提升集群的资源分配效率和稳定性。 系统软件方向: 1、构建及维护操作系统基础环境,负责线上服务器操作系统底层基础模块的稳定运行; 2、优化操作系统、内核、服务器等运行环境,提升小红书整体业务性能; 3、结合软硬件及k8s调度技术,提供体系的解决方案,给上层应用带来稳定性的提升及成本的下降,包括但不限定于混部,超卖等技术; 4、负责构建实时、稳定的全链路跟踪系统,聚焦linux、服务器、交换机等基础设施的故障定界。

更新于 2025-08-18北京|上海|杭州
logo of xiaohongshu
校招基础后端

容器方向: 1、Kubernetes架构设计与开发,在深入理解Kubernetes原生架构基础上,参与Kubernetes核心组件开发; 2、参与Kubernetes集群全面性能分析,并优化关键节点、组件和流程,以提升整体系统的稳定性和响应速度; 3、参与Kubernetes集群的稳定部署、监控与维护工作,确保集群在高负载环境下的可靠运行,并完善平台化能力; 4、参与公司容器调度平台的架构设计和核心功能开发,包括容器资源管理、调度优化、应用和资源弹性等; 5、参与公司混部调度方案落地,优化集群资源的整体利用率;研究并改进 Kubernetes 调度算法,提升集群的资源分配效率和稳定性。 系统软件方向: 1、构建及维护操作系统基础环境,负责线上服务器操作系统底层基础模块的稳定运行; 2、优化操作系统、内核、服务器等运行环境,提升小红书整体业务性能; 3、结合软硬件及k8s调度技术,提供体系的解决方案,给上层应用带来稳定性的提升及成本的下降,包括但不限定于混部,超卖等技术; 4、负责构建实时、稳定的全链路跟踪系统,聚焦linux、服务器、交换机等基础设施的故障定界。

更新于 2025-08-18上海|杭州|北京