阿里云阿里云智能-灵骏产品解决方案架构师-北京/杭州
任职要求
1、计算机科学、电子工程或相关领域硕士及以上学历,具有5年以上云计算平台、分布式系统、大规模数据处理或人工智能系统架构设计与实施经验。 2、对AI/ML技术栈非常了解,包括深度学习框架(如PyTorch、TensorFlow等),熟悉模型训练和推理的原理和过程,拥有训练及推理性能优化的实际经验。有成功主导过大型AI项目或产品从零到一设计与实施的经验者优先。 3、精通分布式计算架构(如Hadoop、Docker、Kubernetes、Serverless等容器和云原生技术),深入了解GPU/TPU/DPU计算和高性能网络原理(RoCE和IB),具有实际优化集群计算及网络资源的经验。熟练掌握Python等编程语言,能够进行高效的算法开发者优先。 4、熟悉云服务平台(如阿里云、AWS、Google Cloud、Azure等),具备云原生应用的设计和部署经验。能够设计和实现基于云的高可用性和高扩展性的AI智算集群解决方案。 5、具备优秀的沟通协调和演讲能力,能够与外部客户以及内部团队进行有效的技术交流,并撰写技术解决方案文档,向客户团队及管理层清晰传达技术决策和设计思路。有云产品售前实际经验者优先。 6、具备良好的复杂项目协调能力和问题解决能力,强大的沟通能力和团队协作精神,能够快速定位并解决复杂的技术问题。 7、对AI技术发展趋势保持高度敏感,具备持续学习的热情和能力。
工作职责
1、作为产品解决方案架构师,深入理解灵骏及异构产品所负责的高性能AI智算集群的技术原理、架构和使用场景,能够根据企业级客户需求和产品能力,规划设计合理的灵骏产品解决方案,推动和实现产品的商业化落地。 2、具备良好的架构思维能力,能够从稳定性、高性能、易用性、可用性、可运维性等方面综合考虑,结合云计算平台产品特点,敏锐捕捉市场趋势,分析竞对产品及市场策略,为产品的设计、实现、改进不断提出建设性的想法和建议,反哺产品能力建设,不断提升灵骏及异构产品的市场竞争力和市场份额。 3、与前线架构师/BTE销售紧密合作,主动了解客户当前在产品方案遇到的困难和需求,帮助客户解决技术问题,寻找新的业务突破点。推广产品方案并能够影响客户的基础设施、工程、算法等不同团队,用产品技术推动业务扩展。 4、分析云计算技术发展趋势/市场竟争格局,挖掘行业数据/客户商机,建立可复制行业解决方案,与产品内部的产品经理、资源及经营团队、研发等团队紧密配合,推动营收增长。
1、作为产品解决方案架构师,深入理解灵骏及异构产品所负责的高性能AI智算集群的技术原理、架构和使用场景,能够根据企业级客户需求和产品能力,规划设计合理的灵骏产品解决方案,推动和实现产品的商业化落地。 2、具备良好的架构思维能力,能够从稳定性、高性能、易用性、可用性、可运维性等方面综合考虑,结合云计算平台产品特点,敏锐捕捉市场趋势,分析竞对产品及市场策略,为产品的设计、实现、改进不断提出建设性的想法和建议,反哺产品能力建设,不断提升灵骏及异构产品的市场竞争力和市场份额。 3、与前线架构师/BTE销售紧密合作,主动了解客户当前在产品方案遇到的困难和需求,帮助客户解决技术问题,寻找新的业务突破点。推广产品方案并能够影响客户的基础设施、工程、算法等不同团队,用产品技术推动业务扩展。 4、分析云计算技术发展趋势/市场竟争格局,挖掘行业数据/客户商机,建立可复制行业解决方案,与产品内部的产品经理、资源及经营团队、研发等团队紧密配合,推动营收增长。
1. 负责以公共云统一架构、OpenAPI、软件技术栈、交付运维体系为基准,测试验证交付GPU实例产品。参与灵骏裸金属,EGS及ACS的GPU实例上线交付工作,确保测试覆盖率满足高标准的产品上线交付标准,为产品质量保驾护航。 2. 负责研究和评估GPU测试技术,制定GPU实例测试方案及研发测试用例,负责GPU相关实例产品验收,保障产品质量。 3. 负责AI模型(AIGC/CV/NLP/推荐系统)推理测试用例设计与开发,性能评测及分析等工作。 4. 负责根据产品定义,设计测试用例,跟踪测试进展,解决测试过程中遇到的技术难题,并对最终测试结果承担责任,甄别及分析评测异常。
1. 参与kuberGPU软件产品的设计与研发,包括kuberGPU软件的迭代研发,性能评估及优化,兼容性提升,新GPU的适配等。 2. 负责kuberGPU在云上的落地,包括与相关团队沟通和协调对接和部署工作,以及针对专属云做对应的kuberGPU软件的适配工作。 3. 保障kuberGPU产品在云上的的稳定性,包括定位和分析上线后遇到的问题,及时进行故障排查和修复。 4. 针对客户的需求和未来业内技术趋势,为业务方提供新的技术支持和建议,并作出高可用、高可靠、高拓展性的技术架构规划和落地。
1. 建设灵骏监管控系统核心能力,不断提升客户在云上使用灵骏智算集群产品的自动化、智能化程度。 2. 建设智算集群库存管理、节点调度、性能分析、故障自动化处理、租户运维功能等核心体系能力,持续提升灵骏智算集群产品竞争力。 3. 建设系统自身高可用体系,如管控组件故障自动定位、自动恢复、自适应容灾、云原生技术实施及落地等,保障业务持续可用、保障线上系统稳定性。 4. 建设异构算力统一管理及资源调度系统,持续智算集群资源利用率、降低计算成本。 5. 持续跟踪AI智算、云原生及智能运维领域新技术,结合业务场景进行创新。 6. 该职位涉及值班响应的职责,在服务级别协议(SLA)时间内做出对客响应,推动客户问题的解决,改善客户体验。