蚂蚁金服蚂蚁集团-算力服务平台研发专家-杭州
任职要求
● 5年以上的Go语言经验,注重工程质量,有独立解决各种系统问题的能力; ● 熟悉 Kubernetes/Docker 生态,熟悉Kubernetes源码、节点管理组件(如kubelet、CNI/CRI插件)的原理与实践,有自研组件或性能经验。 ● 有万台级Kubernetes集群资源调度、节点管理、故障恢复等实战经验,有大规模集群自动化管理平台建设经验 ● 熟悉容器运行时(如Pouch、containerd)、…
工作职责
蚂蚁HCS 算力服务是全站通算,智算资源管理的基础设施平台, 通过Kubernetes等容器和平台技术,为上层业务提供云原生服务,AI算力服务,全局资源动态分配,调度节点单集群规模超过万台,同时致力于在系统、业务多个层面,包括os/kernel、容器/PaaS、智能调度/仿真容量等进行技术突破,提高容器系统规模化的资源利用效率,降低大促等各种大规模复杂业务场景下的资源成本,打造智能、高效、稳定的智算基础设施平台本岗位负责在云原生,AI快速发展的背景下,能够面向异构的物理资源,设计和实现大规模的k8s集群节点和资源的管理能力 ● 算力调度产品架构研发: 负责设计通算,智算的算力调度,优化的平台架构,实现算力的弹性伸缩,分时调度,能够设计训推混部的统一架构平台,实现算力资源有效利用 ● 节点池架构与异构资源管理:负责节点池架构设计,实现算力节点池的产品化管理能力,支持CPU/GPU等异构资源的统一调度与资源隔离,优化AI异构场景下的节点管理策略,提升大规模集群的资源利用率与任务执行效率。 ● 算力节点生命周期产品化管理:建设节点生命周期的全链路产品化能力,设计并实现节点故障预测与主动运维能力,支持算力节点与模型实例的自动化发现与自愈,能够保障算力的稳定和持续供给。 ● 技术创新与成本优化:探索云原生与AI技术结合的创新场景(如弹性节点池、智能调度算法),推动资源管理效率的持续提升。通过资源预测、库存优化等手段,降低集群运维成本与资源浪费
蚂蚁算力调度团队负责蚂蚁通智算场景资源统一调度,帮助蚂蚁在线服务、大数据、AI等核心业务场景提升资源使用效率、优化工作负载性能、提高业务全局容错性和弹性资源保障。我们致力于打造高性能、规模化、有竞争力的算力调度系统,推动蚂蚁基础技术的不断创新与发展。我们重点工作领域包括: ● 研发通智算一体的高性能调度系统,支持云原生应用、分布式作业、函数任务等多种工作负载混合部署; ● 优化大规模任务调度,提升AI、大数据场景任务调度性能、优化并行计算场景作业编排; ● 结合硬件拓扑、网络架构,研发异构硬件优化调度算法,提升异构硬件下的服务/任务运行效率; ● 提升算力调度服务水平,保障大规模调度场景的服务可用性,提高系统化处理效率;
随着通用人工智能技术的快速发展,算力的需求也越来越大,作为阿里云人工智能平台的核心研发力量,您将负责构建支撑智算中心的自动化交付与运维底座。您的工作直接决定平台的部署效率、稳定性和扩展能力: 1、设计并实现平台的自动化部署系统,支持多地域、多可用区、多租户场景下的高效、高质量交付; 2、主导 GitOps 工作流在团队内的工程化落地,开发和维护基于ArgoCD/Flux等工具的发布控制系统,实现配置即代码、变更可追溯、发布可回滚; 3、参与多种云环境下部署架构的工程实现,解决跨云环境下的配置同步、资源编排与一致性保障问题; 4、与平台产品、算法工程团队紧密协作,将运维能力产品化,提升用户自助部署与管理体验。
1. 建设灵骏监管控系统核心能力,不断提升客户在云上使用灵骏智算集群产品的自动化、智能化程度。 2. 建设智算集群库存管理、节点调度、性能分析、故障自动化处理、租户运维功能等核心体系能力,持续提升灵骏智算集群产品竞争力。 3. 建设系统自身高可用体系,如管控组件故障自动定位、自动恢复、自适应容灾、云原生技术实施及落地等,保障业务持续可用、保障线上系统稳定性。 4. 建设异构算力统一管理及资源调度系统,持续智算集群资源利用率、降低计算成本。 5. 持续跟踪AI智算、云原生及智能运维领域新技术,结合业务场景进行创新。 6. 该职位涉及值班响应的职责,在服务级别协议(SLA)时间内做出对客响应,推动客户问题的解决,改善客户体验。
1. 建设灵骏监管控系统核心能力,不断提升客户在云上使用灵骏智算集群产品的自动化、智能化程度。 2. 建设智算集群库存管理、节点调度、性能分析、故障自动化处理、租户运维功能等核心体系能力,持续提升灵骏智算集群产品竞争力。 3. 建设系统自身高可用体系,如管控组件故障自动定位、自动恢复、自适应容灾、云原生技术实施及落地等,保障业务持续可用、保障线上系统稳定性。 4. 建设异构算力统一管理及资源调度系统,持续智算集群资源利用率、降低计算成本。 5. 持续跟踪AI智算、云原生及智能运维领域新技术,结合业务场景进行创新。 6. 该职位涉及值班响应的职责,在服务级别协议(SLA)时间内做出对客响应,推动客户问题的解决,改善客户体验。