logo of kuaishou

快手容器云调度编排研发工程师/专家

社招全职D10990地点:北京状态:招聘

任职要求


1、快速学习,不断突破技术瓶颈,乐于探索未知领域,随时准备好去面对新挑战;
2、具备优秀程序员的基本素养,对代码有洁癖,遇到问题可以一查到底,善用工具,对工程效率有自己的见解;
3、掌握常用的数据结构/算法,具备扎实的代码功底与良好的编码习惯,熟悉至少一门编程语言(GolangJava等)开发语言;
4、对DockerKubernetes等云原生技术有开发经验者优先,有Flink / Spark大数据云原生相关经验优先。

工作职责


1、负责大数据领域的资源调度云原生演进的架构设计&研发,打造支持大数据近离线、流批一体化架构的调度系统;
2、负责大数据主流引擎的云原生化技术演进,包括Spark、MR、Flink等引擎 on Kubernetes 架构设计&研发工作;
3、结合容器领域各类前沿技术,负责全局资源的编排及调度功能的技术迭代与落地实践。
包括英文材料
数据结构+
算法+
编程规范+
Go+
Java+
Docker+
Kubernetes+
Spark+
大数据+
相关职位

logo of thead
社招5年以上技术-芯片

我们正在寻找具备深厚技术功底、前瞻性视野和丰富实战经验的DevOps平台工程专家,加入我们致力于构建智能化研发基础设施的核心团队。在这里,你将主导下一代AI驱动的CI/CD平台与智能运维系统的设计与落地,推动软件研发流程向自动化、可观测性、自愈能力和数据驱动决策全面进化。 作为团队的技术骨干,你将: 1. 设计并构建高可用、智能化的CI/CD平台 主导持续集成与持续交付系统的架构演进,支持大规模分布式研发协作;探索机器学习在构建失败预测、测试用例智能推荐、资源调度优化等场景的应用,显著提升交付效率与稳定性。 2. 打造企业级智能化运维(AIOps)体系 基于Python、Go等语言,构建自动化运维工具链与平台化能力,实现基础设施即代码(IaC);引入异常检测、根因分析、故障传播图谱等AI算法,提升系统可观测性与故障响应速度,推动运维从“被动响应”向“主动预防”转变。 3. 构建全链路智能监控与自愈系统 设计并落地覆盖应用、服务、资源的端到端监控体系,集成Prometheus、Grafana、ELK、OpenTelemetry等主流技术栈;结合时序预测(LSTM、Prophet)、无监督异常检测(Isolation Forest、One-Class SVM)等模型,实现性能瓶颈预警、自动诊断与部分场景的闭环自愈。 4. 推动MLOps与DevOps深度融合 主导机器学习模型训练流水线(ML Pipeline)与模型服务化(Model Serving)平台建设,设计模型版本管理、A/B测试、流量灰度、监控告警与快速回滚机制,支撑AI能力高效、稳定地规模化落地。

更新于 2025-10-09
logo of kuaishou
校招J1014

1、参与快手容器云资源调度及服务编排等领域的设计与开发工作; 2、基于Kubernetes等云原生技术完善资源统一调度、服务的多集群联邦编排,提升资源及服务变更效率; 3、参与公司在离线混部系列机制的设计与开发,提升集群异构资源的使用效率; 4、探索容器领域前沿技术,参与容器云全局技术优化与落地实践。

更新于 2025-07-30
logo of kuaishou
实习J1014

1、参与快手容器云资源调度及服务编排等领域的设计与开发工作; 2、基于Kubernetes等云原生技术完善资源统一调度、服务的多集群联邦编排,提升资源及服务变更效率; 3、参与公司在离线混部系列机制的设计与开发,提升集群异构资源的使用效率; 4、探索容器领域前沿技术,参与容器云全局技术优化与落地实践。

更新于 2025-03-06
logo of baidu
社招1年以上ACG

-负责云原生产品 Kubernetes 容器引擎、镜像服务、可观测服务等的设计与研发工作,提升产品竞争力及体验 -负责大规模 AI Infra 云原生底座的设计与研发工作,基于云原生技术打造异构多元芯算力底座,支持国产化信创,支持业务进行大规模训练、容错及弹性推理,构建异构多元芯算力底座 -负责打造现代化的云原生智能运维能力,设计和实现覆盖 AI 场景全栈的故障感知、诊断及自愈能力 -持续提升云原生产品服务及基础设施的稳定性,优化服务性能,提升架构的可扩展性 -探索业界最新技术方向,参与开源社区,提升百度云原生核心竞争力

更新于 2025-04-28