快手容器云调度编排研发工程师/专家
任职要求
1、快速学习,不断突破技术瓶颈,乐于探索未知领域,随时准备好去面对新挑战; 2、具备优秀程序员的基本素养,对代码有洁癖,遇到问题可以一查到底,善用工具,对工程效率有自己的见解; 3、掌握常用的数据结构/算法,具备扎实的代码功底与良好的编码习惯,熟悉至少一门编程语言(Golang、Java等)开发语言; 4、对Docker、Kubernetes等云原生技术有开发经验者优先,有Flink / Spark等大数据云原生相关经验优先。
工作职责
1、负责大数据领域的资源调度云原生演进的架构设计&研发,打造支持大数据近离线、流批一体化架构的调度系统; 2、负责大数据主流引擎的云原生化技术演进,包括Spark、MR、Flink等引擎 on Kubernetes 架构设计&研发工作; 3、结合容器领域各类前沿技术,负责全局资源的编排及调度功能的技术迭代与落地实践。
我们正在寻找具备深厚技术功底、前瞻性视野和丰富实战经验的DevOps平台工程专家,加入我们致力于构建智能化研发基础设施的核心团队。在这里,你将主导下一代AI驱动的CI/CD平台与智能运维系统的设计与落地,推动软件研发流程向自动化、可观测性、自愈能力和数据驱动决策全面进化。 作为团队的技术骨干,你将: 1. 设计并构建高可用、智能化的CI/CD平台 主导持续集成与持续交付系统的架构演进,支持大规模分布式研发协作;探索机器学习在构建失败预测、测试用例智能推荐、资源调度优化等场景的应用,显著提升交付效率与稳定性。 2. 打造企业级智能化运维(AIOps)体系 基于Python、Go等语言,构建自动化运维工具链与平台化能力,实现基础设施即代码(IaC);引入异常检测、根因分析、故障传播图谱等AI算法,提升系统可观测性与故障响应速度,推动运维从“被动响应”向“主动预防”转变。 3. 构建全链路智能监控与自愈系统 设计并落地覆盖应用、服务、资源的端到端监控体系,集成Prometheus、Grafana、ELK、OpenTelemetry等主流技术栈;结合时序预测(LSTM、Prophet)、无监督异常检测(Isolation Forest、One-Class SVM)等模型,实现性能瓶颈预警、自动诊断与部分场景的闭环自愈。 4. 推动MLOps与DevOps深度融合 主导机器学习模型训练流水线(ML Pipeline)与模型服务化(Model Serving)平台建设,设计模型版本管理、A/B测试、流量灰度、监控告警与快速回滚机制,支撑AI能力高效、稳定地规模化落地。
1、参与快手容器云资源调度及服务编排等领域的设计与开发工作; 2、基于Kubernetes等云原生技术完善资源统一调度、服务的多集群联邦编排,提升资源及服务变更效率; 3、参与公司在离线混部系列机制的设计与开发,提升集群异构资源的使用效率; 4、探索容器领域前沿技术,参与容器云全局技术优化与落地实践。
1、参与快手容器云资源调度及服务编排等领域的设计与开发工作; 2、基于Kubernetes等云原生技术完善资源统一调度、服务的多集群联邦编排,提升资源及服务变更效率; 3、参与公司在离线混部系列机制的设计与开发,提升集群异构资源的使用效率; 4、探索容器领域前沿技术,参与容器云全局技术优化与落地实践。