阿里云阿里云智能-容器服务智算方向技术专家-北京/杭州
任职要求
1. 计算机、软件工程及相关专业,计算机基础知识与编程基本功扎实,熟悉Go/Python/C++至少一种 2. 熟悉至少一项云原生技术(如Docker,Kubernetes,Kubeflow,Fluid等),有相关项目经验 3. 熟悉分布式计算/存储/调度系统的开发运维,具有基本的性能和稳定性优化经验 4. 熟悉至少一个AI大数据引擎的使用(包括但不限于Spark,Flink,Ray,Pyt…
工作职责
1. 负责阿里云容器云原生AI和大数据产品的架构设计和开发工作 2. 负责容器产品调度、管理大规模GPU/NPU/RDMA等异构资源集群的效率、性能和稳定性的持续优化 3. 负责基于Kubernetes容器构建面向AI/大模型训练和推理,大规模数据处理和工作流等场景的基础设施产品和解决方案 4. 负责云原生AI领域新技术和新方向的预研和落地,及相关开源能力建设
随着通用人工智能技术的快速发展,算力的需求也越来越大,作为阿里云人工智能平台的核心研发力量,您将负责构建支撑智算中心的自动化交付与运维底座。您的工作直接决定平台的部署效率、稳定性和扩展能力: 1、设计并实现平台的自动化部署系统,支持多地域、多可用区、多租户场景下的高效、高质量交付; 2、主导 GitOps 工作流在团队内的工程化落地,开发和维护基于ArgoCD/Flux等工具的发布控制系统,实现配置即代码、变更可追溯、发布可回滚; 3、参与多种云环境下部署架构的工程实现,解决跨云环境下的配置同步、资源编排与一致性保障问题; 4、与平台产品、算法工程团队紧密协作,将运维能力产品化,提升用户自助部署与管理体验。
该岗位将承担智算底层系统性能优化、全栈协同性能优化两个方向的职责。 1、主导AI领域下阿里云云原生多租底层系统的性能瓶颈分析及优化设计,提升底层系统弹性、性能及成本竞争力。 2、优化AI应用场景安全容器运行时、虚拟化、linux内核等核心组件性能。 3、设计高并发、低延迟的云原生底层系统架构,支持AI场景节点pod极速弹缩及系统稳定性。 4、在云原生底层(操作系统内核、容器运行时、CRI-O等)和AI工作负载间建立性能优化协同框架,支撑大模型训练、分布式推理等AI应用在安全容器运行环境中保持性能竞争力。 5、优化AI模型在安全容器环境下的部署、分发、加载效率,支持AI应用极速启动。 6、设计并开发定制化监控和诊断工具链,实时分析云原生AI场景的GPU、CPU、内存、网络、存储性能瓶颈及热路径。
-负责混合云、算力中心建设方案设计,分析交付技术难点并攻克解决,保障项目交付闭环 -负责CPU/GPU上云方案设计,业务、模型、数据上云迁移,为客户提供端到端的上云服务,保障上云方案和实施的可落地性 -负责大模型、智算运营期间的客户需求对接,任务拆解,方案设计并推动生态完成agent开发,SFT优化等 -与其他技术团队合作,推进方案标准化,从而提升产品交付中的稳定性、效率等,交付后的产品可用性、可运维性等 -能充分利用生态化伙伴,降低项目实施成本,提升交付效率 -充分以客户视角理解客户需求,为客户提供简单可依赖的技术服务
蚂蚁HCS 算力服务是全站通算,智算资源管理的基础设施平台, 通过Kubernetes等容器和平台技术,为上层业务提供云原生服务,AI算力服务,全局资源动态分配,调度节点单集群规模超过万台,同时致力于在系统、业务多个层面,包括os/kernel、容器/PaaS、智能调度/仿真容量等进行技术突破,提高容器系统规模化的资源利用效率,降低大促等各种大规模复杂业务场景下的资源成本,打造智能、高效、稳定的智算基础设施平台本岗位负责在云原生,AI快速发展的背景下,能够面向异构的物理资源,设计和实现大规模的k8s集群节点和资源的管理能力 ● 算力调度产品架构研发: 负责设计通算,智算的算力调度,优化的平台架构,实现算力的弹性伸缩,分时调度,能够设计训推混部的统一架构平台,实现算力资源有效利用 ● 节点池架构与异构资源管理:负责节点池架构设计,实现算力节点池的产品化管理能力,支持CPU/GPU等异构资源的统一调度与资源隔离,优化AI异构场景下的节点管理策略,提升大规模集群的资源利用率与任务执行效率。 ● 算力节点生命周期产品化管理:建设节点生命周期的全链路产品化能力,设计并实现节点故障预测与主动运维能力,支持算力节点与模型实例的自动化发现与自愈,能够保障算力的稳定和持续供给。 ● 技术创新与成本优化:探索云原生与AI技术结合的创新场景(如弹性节点池、智能调度算法),推动资源管理效率的持续提升。通过资源预测、库存优化等手段,降低集群运维成本与资源浪费