平头哥平头哥-服务器AI性能分析优化专家-上海
任职要求
1. 熟悉C/C++、汇编语言以及Bash/Python等编程语言。 2. 对计算机体系结构有深入理解,熟悉GPU并行计算芯片的架构。 3. 掌握常用的GPU性能分析与优化方法,熟悉性能分析工具,如Nsight,perfetto等。 4. 了解并行计算体系结构,理解并行计算芯片的原理,具备CUDA/OpenCL并行编程技术的经验。 5. 拥有强大的学习能力,能够快速掌握和理解复杂问题,条理清晰地组织信息;具备分析与解决AI软硬件全栈问题的能力。 6. 具备良好的沟通和协调能力,能够跨团队、跨部门有效协作,共同实现产品化目标。
工作职责
负责以下一个或者多个领域: 1. 基于平头哥数据中心服务器AI芯片的应用和benchmark的性能分析与优化。 2. 通过分析包括上层的应用,中间层的框架、库和底层的Linux操作系统、硬件驱动的行为模式,以及竞对的性能表现,识别系统性能瓶颈,明确软硬件的优化方向。 3. 将识别出的性能瓶颈场景进行简化,实现称为有代表性的perf microbenchmark,作为软硬件优化的输入和用例。 4. 和软件团队协作,参与软件优化的开发工作,包括但不限于:给出优化方案或建议,提供性能测试用例。 5. 和AI芯片架构和硬件设计团队协作,将分析中定位到的硬件性能瓶颈问题反馈给硬件团队,提供相应测试用例,为下一代硬件产品的优化提出可行性建议。 6. 和测试自动化团队合作,建立和完善高效的AI芯片性能测试系统;提高团队内性能测试和回归的工作效率。
1. 依据公共云统一架构、OpenAPI规范、软件技术栈以及交付运维体系,负责专属云产品的研发与交付。深度参与灵骏裸金属服务器及EGS云计算服务器的研发流程,包括硬件架构预研、方案设计、软硬件结合的系统优化、线上服务质量保证以及提供专家技术支持等关键环节,确保产品从研发到运维的全生命周期高效管理。 2. 跟踪并把握GPU架构设计的发展趋势,探索前沿的GPU架构设计技术。联合高性能网络团队共同设计网络互联架构,针对分布式训练和推理业务场景,在软硬件协同及高性能网络方向上寻找性能优化的新途径,构建阿里云加速计算云服务器的核心竞争力。 3. 研发并持续改进系统的稳定性和安全性,确保平台的安全可靠运行,并不断提升对外服务质量标准。
1.参与灵骏裸金属服务器及EGS实例的研发工作,包括但不限于早期邀请测试、线上服务质量保证以及性能优化等关键环节,确保产品从研发到上线的全生命周期管理。 2.负责灵骏、EGS和阿里云服务(ACS)GPU的单元测试设计与实现,确保测试覆盖率满足高标准的产品准入和准出要求,为产品质量保驾护航。 3.研发并持续改进系统的稳定性和安全功能,保障平台的安全可靠运行,以应对复杂的网络环境和潜在的安全威胁。
团队介绍 我们是平头哥AI 芯片软件互联团队,主要职责是积极拥抱社区生态、并基于平头哥AI 芯片产品来打造我们自己的互联通信库。 越来越好的大模型对算力需求日益高涨,而大模型训练与推理的高效部署都依赖越来越多的芯片通过互联在一起,高效协同以发挥出线性增长的计算效率。我们会与架构/硬件/Model 同学紧密合作以共同打造越来越符合业界需求的芯片,同时也会协同服务器/网络等伙伴共同打造基于平头哥芯片的高性能集群 solution,还会深入到各种应用场景去洞察并满足用户对多卡训练、推理在性能、鲁棒性、故障定位等各方面的需求,协同各方共同打造最高效、易用的平头哥多卡产品软件解决方案。 职位描述 1. 为芯片设计开发高性能、有竞争力的互联通信库; 2. 基于芯片、服务器、网络集群架构特性与互联通信应用模式进行极致性能优化; 3. 增强在大规模机器任务下发生 hang 或 crash 时的专家分析与诊断、定位能力; 4. 支持多卡或多机互联场景下各种用户问题分析与定位; 5. 和其他团队紧密合作,影响芯片、服务器与集群架构等方案设计和演进。