阿里云阿里云智能-基础平台开发技术专家-集群运维管理平台-杭州
任职要求
1. 精通java的编程语言,掌握语言底层特性,熟悉相关生态/框架;有良好编程习惯和持续学习多种开发语言的意愿和能力。 2. 5年以上线上系统的设计开发经验,有基于kubernetes,容器平台等云原生环境相关项目…
工作职责
1、可独立负责统一运维平台产品的业务域,采用合理的设计模式对系统进行抽象设计,架构具有良好扩展性 2. 负责功能模块的核心功能研发,把控研发进度按时交付高质量代码,并能快速高效解决线上问题 3. 作为资深技术骨干通过技术方案/代码评审/应急复盘等形式,提升团队技术水平,全方位提高工程质量 4. 关注阿里云内各域云产品运维工具及业界相关领域的的演进,理解所负责业务域的系统结构及问题,管理对应业务域的优先级和迭代规划,持续重构优化负责业务域,保持系统的稳定性和扩展性
蚂蚁HCS 算力服务是全站通算,智算资源管理的基础设施平台, 通过Kubernetes等容器和平台技术,为上层业务提供云原生服务,AI算力服务,全局资源动态分配,调度节点单集群规模超过万台,同时致力于在系统、业务多个层面,包括os/kernel、容器/PaaS、智能调度/仿真容量等进行技术突破,提高容器系统规模化的资源利用效率,降低大促等各种大规模复杂业务场景下的资源成本,打造智能、高效、稳定的智算基础设施平台本岗位负责在云原生,AI快速发展的背景下,能够面向异构的物理资源,设计和实现大规模的k8s集群节点和资源的管理能力 ● 算力调度产品架构研发: 负责设计通算,智算的算力调度,优化的平台架构,实现算力的弹性伸缩,分时调度,能够设计训推混部的统一架构平台,实现算力资源有效利用 ● 节点池架构与异构资源管理:负责节点池架构设计,实现算力节点池的产品化管理能力,支持CPU/GPU等异构资源的统一调度与资源隔离,优化AI异构场景下的节点管理策略,提升大规模集群的资源利用率与任务执行效率。 ● 算力节点生命周期产品化管理:建设节点生命周期的全链路产品化能力,设计并实现节点故障预测与主动运维能力,支持算力节点与模型实例的自动化发现与自愈,能够保障算力的稳定和持续供给。 ● 技术创新与成本优化:探索云原生与AI技术结合的创新场景(如弹性节点池、智能调度算法),推动资源管理效率的持续提升。通过资源预测、库存优化等手段,降低集群运维成本与资源浪费
1、技术方案设计 • 收集、识别、分析平台设计目标及管理需求,围绕资源管理平台确定相应技术方案的目标、范围和交付成果; • 基于需求分析,进行技术可行性分析和方案评审,结合当前的技术架构进行合适的技术选型、功能设计、技术架构、数据架构和开发流程等。 2、技术实现 • 基于技术方案的拆解,按照任务目标和产出规范,完成任务/子任务的设计、编码开发和系统功能实现; • 负责核心功能的架构与代码模板的编写,开发与维护资源管理平台核心业务模块,优化程序性能等; • 对编码进行阶段性的讨论和CodeReview,并通过调试优化,推动代码成功部署; • 对开发中和部署后的程序进行必要的维护和迭代,包括值班oncall、bug排查、问题诊断、产品体验改善、性能和成本优化等; • 编写技术文档,如操作手册、故障排除指南、API文档等,以支持日常答疑运维工作。 3、安全、稳定、效率和性能优化 • 运用产品优化技术和方法,实现安全保障和优化系统性能,提高平台系统安全性及客户使用体验。 4、技术预研 • 跟踪和了解国内外资源管理平台技术发展和趋势,结合业务实际需要提供有效的技术支持和架构建议。 5、技术规划 • 理解业务重点,基于业务需求作出高可用、高可靠、高拓展性的技术架构规划和落地。
阿里云天基集群管理团队,负责阿里云天基平台的开发,是阿里云四大基础平台之一。公共云天基服务承载着飞天操作系统中基础计算、存储、网络组件的生命周期管理以及硬件自动化运维体系,管理着百万级服务器及千万级应用实例,高可靠、自动化、智能化是天基平台一直以来的目标。 核心职责 1. 主导 IaaS 自动化运维平台的核心模块设计与开发,包括自愈系统架构设计及优化,大规模场景下服务器及应用全生命周期管理; 2. 推动 IaC、运行时参数分离等方式完成“不可变基础设施”理念的落地; 3. 设计并实现高可用、可水平扩展的分布式 Git 对象存储系统; 4. 探索通过 AIOps 提高 IaaS 场景下异常检测、根因分析、自愈决策等能力;