阿里云阿里云智能-灵骏解决方案高级架构师-北京/杭州
任职要求
1、计算机科学、电子工程或相关领域硕士及以上学历,具有8年以上云计算平台、分布式系统、大规模数据处理或人工智能系统架构设计与实施经验。 2、对AI/ML技术栈非常了解,包括深度学习框架(如PyTorch、TensorFlow等),熟悉模型训练和推理的原理和过程,拥有训练及推理性能优化的实际经验。有成功主导过大型AI项目或产品从零到一设计与实施的经验者优先。 3、精通分布式计算架构(如Hadoop、Docker、Kubernetes、Serverless等容器和云原生技术),深入了解GPU/TPU/DPU计算和高性能网络原理(RoCE和IB),具有实际优化集群计算及网络资源的经验。熟练…
工作职责
1、作为产品解决方案架构师,深入理解灵骏及异构产品所负责的高性能AI智算集群的技术原理、架构和使用场景,能够根据企业级客户需求和产品能力,规划设计合理的灵骏产品解决方案,推动和实现产品的商业化落地。 2、具备良好的架构思维能力,能够从稳定性、高性能、易用性、可用性、可运维性等方面综合考虑,结合云计算平台产品特点,敏锐捕捉市场趋势,分析竞对产品及市场策略,为产品的设计、实现、改进不断提出建设性的想法和建议,反哺产品能力建设,不断提升灵骏及异构产品的市场竞争力和市场份额。 3、与前线架构师/BTE销售紧密合作,主动了解客户当前在产品方案遇到的困难和需求,帮助客户解决技术问题,寻找新的业务突破点。推广产品方案并能够影响客户的基础设施、工程、算法等不同团队,用产品技术推动业务扩展。 4、分析云计算技术发展趋势/市场竟争格局,挖掘行业数据/客户商机,建立可复制行业解决方案,与产品内部的产品经理、资源及经营团队、研发等团队紧密配合,推动营收增长。
1. 负责以公共云统一架构、OpenAPI、软件技术栈、交付运维体系为基准,测试验证交付GPU实例产品。参与灵骏裸金属,EGS及ACS的GPU实例上线交付工作,确保测试覆盖率满足高标准的产品上线交付标准,为产品质量保驾护航。 2. 负责研究和评估GPU测试技术,制定GPU实例测试方案及研发测试用例,负责GPU相关实例产品验收,保障产品质量。 3. 负责AI模型(AIGC/CV/NLP/推荐系统)推理测试用例设计与开发,性能评测及分析等工作。 4. 负责根据产品定义,设计测试用例,跟踪测试进展,解决测试过程中遇到的技术难题,并对最终测试结果承担责任,甄别及分析评测异常。
1. 负责灵骏集群的AI系统性能分析与优化,支持客户多个AI作业场景在不同平台芯片和多种集群规模下的适配和性能调优,能快速且以工具/产品化方式识别性能瓶颈并提出解决方案; 2. 针对主流深度学习框架、分布式训练和模型部署场景等,进行性能调优,优化算子性能、通信性能、内存利用率等关键指标,提升集群整体运行效率; 3. 对AI系统进行性能建模与仿真,建立Roofline模型等性能分析工具。通过仿真结果辅助系统设计和资源分配,为集群建设提供数据支持;同时推荐最佳训练和模型部署配置,辅助用户拿到最佳性能实践; 4. 负责开发和维护性能分析工具,支持系统性能监控、瓶颈定位和优化效果评估,提供性能分析报告,为团队和客户提供性能优化建议。
1. 负责灵骏集群的AI系统性能分析与优化,支持客户多个AI作业场景在不同平台芯片和多种集群规模下的适配和性能调优,能快速且以工具/产品化方式识别性能瓶颈并提出解决方案; 2. 针对主流深度学习框架、分布式训练和模型部署场景等,进行性能调优,优化算子性能、通信性能、内存利用率等关键指标,提升集群整体运行效率; 3. 对AI系统进行性能建模与仿真,建立Roofline模型等性能分析工具。通过仿真结果辅助系统设计和资源分配,为集群建设提供数据支持;同时推荐最佳训练和模型部署配置,辅助用户拿到最佳性能实践; 4. 负责开发和维护性能分析工具,支持系统性能监控、瓶颈定位和优化效果评估,提供性能分析报告,为团队和客户提供性能优化建议。
1、作为产品解决方案架构师,深入理解灵骏及异构产品所负责的高性能AI智算集群的技术原理、架构和使用场景,能够根据企业级客户需求和产品能力,规划设计合理的灵骏产品解决方案,推动和实现产品的商业化落地。 2、具备良好的架构思维能力,能够从稳定性、高性能、易用性、可用性、可运维性等方面综合考虑,结合云计算平台产品特点,敏锐捕捉市场趋势,分析竞对产品及市场策略,为产品的设计、实现、改进不断提出建设性的想法和建议,反哺产品能力建设,不断提升灵骏及异构产品的市场竞争力和市场份额。 3、与前线架构师/BTE销售紧密合作,主动了解客户当前在产品方案遇到的困难和需求,帮助客户解决技术问题,寻找新的业务突破点。推广产品方案并能够影响客户的基础设施、工程、算法等不同团队,用产品技术推动业务扩展。 4、分析云计算技术发展趋势/市场竟争格局,挖掘行业数据/客户商机,建立可复制行业解决方案,与产品内部的产品经理、资源及经营团队、研发等团队紧密配合,推动营收增长。