阿里云阿里云智能-灵骏AI加速计算产品技术专家-上海/杭州
任职要求
1. 计算机科学、电子工程、通信工程、电气工程等相关专业背景;熟悉Python、Shell、C/C++等开发语言,拥有5年及以上相关工作经验; 2. 深入理解GPU芯片架构及服务器架构,熟悉PCIe规范、Linux内核、KVM虚拟化技术,并对GPU驱动、系统性能分析及其优化有丰富经验; …
工作职责
1. 依据公共云统一架构、OpenAPI规范、软件技术栈以及交付运维体系,负责公共云异构计算产品的研发与交付。深度参与研发流程,确保产品从研发到运维的全生命周期高效管理; 2. 跟踪和了解新的异构计算产品技术和趋势,探索前沿的GPU架构设计与技术,理解业务战略及重点,基于业务需求作出高可用、高可靠、高拓展性的技术架构规划和落地; 3. 联合网络团队共同设计网络互联架构,针对分布式训练和推理业务场景,在软硬件协同及高性能网络方向上寻找性能优化的新途径,构建阿里云加速计算云服务器的核心竞争力; 4. 研发并持续改进系统的稳定性和安全性,制定稳定性策略,寻找并解决产品系统中的潜在风险和瓶颈,覆盖线上疑难杂症问题,提高产品稳定性和性能确保平台的安全可靠运行,并不断提升对外服务质量标准。
1. 依据公共云统一架构、OpenAPI规范、软件技术栈以及交付运维体系,负责专属云产品的研发与交付。深度参与灵骏裸金属服务器及EGS云计算服务器的研发流程,包括硬件架构预研、方案设计、软硬件结合的系统优化、线上服务质量保证以及提供专家技术支持等关键环节,确保产品从研发到运维的全生命周期高效管理。 2. 跟踪并把握GPU架构设计的发展趋势,探索前沿的GPU架构设计技术。联合高性能网络团队共同设计网络互联架构,针对分布式训练和推理业务场景,在软硬件协同及高性能网络方向上寻找性能优化的新途径,构建阿里云加速计算云服务器的核心竞争力。 3. 研发并持续改进系统的稳定性和安全性,确保平台的安全可靠运行,并不断提升对外服务质量标准。
1. 参与kuberGPU软件产品的设计与研发,包括kuberGPU软件的迭代研发,性能评估及优化,兼容性提升,新GPU的适配等。 2. 负责kuberGPU在云上的落地,包括与相关团队沟通和协调对接和部署工作,以及针对专属云做对应的kuberGPU软件的适配工作。 3. 保障kuberGPU产品在云上的的稳定性,包括定位和分析上线后遇到的问题,及时进行故障排查和修复。 4. 针对客户的需求和未来业内技术趋势,为业务方提供新的技术支持和建议,并作出高可用、高可靠、高拓展性的技术架构规划和落地。
阿里云智能计算灵骏致力于打造 AI 时代业界优秀的加速计算集群系统,以 CaaS(Cluster as a Service)模式,面向AGI时代浪潮,我们需要能够把 GPU 算力的『硬核工程语言』翻译成『业务使用语言』,通过灵活易用的系统构建和应用向客户快速赋能,帮助客户在 AI 时代获得长期优势。加入我们,你将获得: ● 参与加速计算产品高增速的历史机遇; ● 一个允许你用“产品思维”重新定义“算力服务”的自由空间; ● 一份让全球客户因体验而选择阿里云的成就感。 1. 制定阿里云灵骏产品体验策略与路线图,面向客户获取算力、数据、互联与编排的核心路径,将复杂能力抽象为少而精的可选项与清晰流程; 2. 负责灵骏产品体验的设计和优化,配合市场推广和落地。深入理解客户的需求和行业技术发展的趋势,通过竞分、用户调研等方法,完成产品体验行为定义及设计; 3. 负责控制台、售卖链路、经营链路的体验优化:端到端参与功能定义、原型设计、交互文案与MVP可行产品落地;通过 A/B 实验与数据驱动迭代; 4. 编写产品使用说明、发布说明与演示脚本:形成面向客户的上手手册、演示视频脚本与最佳实践范例,支持市场推广与售前方案; 5. 搭建产品知识库与智能客服:沉淀 FAQ/操作指南/事件处置卡片,建设基于检索增强(RAG)的智能客服闭环,打通工单反馈与产品改进链路; 6. 负责产品合规和风险防控,排查治理数据安全/资损等各类隐患,保证日常运维和服务的高质量。