阿里云阿里云智能-异构GPU实例研发专家-杭州/上海/北京
任职要求
1. 熟悉产品研发全流程与GPU实例的基本验收标准,具备CUDA,RoCM,Triton等GPU底层加速库的研发能力,研发GPU P2P,GDR,GDS等实例功能,提供有行业竞争力的异构产品技术。 2. 对运维与稳定性治理有深刻理解,具备工单,故障处理,轮转升级等基本运维能力 3. 熟悉集群化的网络架构与性能评估,熟悉集群化的GPU监控与性能分析 4. 熟悉AI/模型不同场景下的性能评估与自动化巡检与测试系统的建立 5. 候选人需要满足5年以上异构、GPU领域的研发工作经验
工作职责
1.参与灵骏裸金属服务器及EGS实例的研发工作,包括但不限于早期邀请测试、线上服务质量保证以及性能优化等关键环节,确保产品从研发到上线的全生命周期管理。 2.负责灵骏、EGS和阿里云服务(ACS)GPU的单元测试设计与实现,确保测试覆盖率满足高标准的产品准入和准出要求,为产品质量保驾护航。 3.研发并持续改进系统的稳定性和安全功能,保障平台的安全可靠运行,以应对复杂的网络环境和潜在的安全威胁。
蚂蚁HCS 算力服务是全站通算,智算资源管理的基础设施平台, 通过Kubernetes等容器和平台技术,为上层业务提供云原生服务,AI算力服务,全局资源动态分配,调度节点单集群规模超过万台,同时致力于在系统、业务多个层面,包括os/kernel、容器/PaaS、智能调度/仿真容量等进行技术突破,提高容器系统规模化的资源利用效率,降低大促等各种大规模复杂业务场景下的资源成本,打造智能、高效、稳定的智算基础设施平台本岗位负责在云原生,AI快速发展的背景下,能够面向异构的物理资源,设计和实现大规模的k8s集群节点和资源的管理能力 ● 算力调度产品架构研发: 负责设计通算,智算的算力调度,优化的平台架构,实现算力的弹性伸缩,分时调度,能够设计训推混部的统一架构平台,实现算力资源有效利用 ● 节点池架构与异构资源管理:负责节点池架构设计,实现算力节点池的产品化管理能力,支持CPU/GPU等异构资源的统一调度与资源隔离,优化AI异构场景下的节点管理策略,提升大规模集群的资源利用率与任务执行效率。 ● 算力节点生命周期产品化管理:建设节点生命周期的全链路产品化能力,设计并实现节点故障预测与主动运维能力,支持算力节点与模型实例的自动化发现与自愈,能够保障算力的稳定和持续供给。 ● 技术创新与成本优化:探索云原生与AI技术结合的创新场景(如弹性节点池、智能调度算法),推动资源管理效率的持续提升。通过资源预测、库存优化等手段,降低集群运维成本与资源浪费
负责火山引擎-IaaS异构云服务研发,聚焦在云上提供满足AI场景,尤其是大模型训练和推理的异构算力需求,构建高性能、高利用率、高稳定性的云上计算平台。 主要工作包括: 1、负责云上IaaS异构ECS/裸金属实例的构建与迭代; 2、负责IaaS异构稳定性系统的设计和研发,识别典型问题,提出解决方案,提升客户稳定性体验; 3、协同上下游团队,推动关键问题的解决优化,并构建平台能力。
负责火山引擎-IaaS异构云服务研发,聚焦在云上提供满足AI场景,尤其是大模型训练和推理的异构算力需求,构建高性能、高利用率、高稳定性的云上计算平台。 主要工作包括: 1、负责云上IaaS异构ECS/裸金属实例的构建与迭代; 2、负责IaaS异构稳定性系统的设计和研发,识别典型问题,提出解决方案,提升客户稳定性体验; 3、协同上下游团队,推动关键问题的解决优化,并构建平台能力。