logo of thead

平头哥平头哥-服务器AI性能分析优化专家-上海

社招全职5年以上技术类-开发地点:上海状态:招聘

任职要求


1. 熟悉C/C++、汇编语言以及Bash/Python等编程语言。
2. 对计算机体系结构有深入理解,熟悉GPU并行计算芯片的架构。
3. 掌握常用的GPU性能分析与优化方法,熟悉性能分析工具,如Nsight,perfetto等。
4. 了解并行计算体系结构,理…
登录查看完整任职要求
微信扫码,1秒登录

工作职责


负责以下一个或者多个领域:
1. 基于平头哥数据中心服务器AI芯片的应用和benchmark的性能分析与优化。
2. 通过分析包括上层的应用,中间层的框架、库和底层的Linux操作系统、硬件驱动的行为模式,以及竞对的性能表现,识别系统性能瓶颈,明确软硬件的优化方向。
3. 将识别出的性能瓶颈场景进行简化,实现称为有代表性的perf microbenchmark,作为软硬件优化的输入和用例。
4. 和软件团队协作,参与软件优化的开发工作,包括但不限于:给出优化方案或建议,提供性能测试用例。
5. 和AI芯片架构和硬件设计团队协作,将分析中定位到的硬件性能瓶颈问题反馈给硬件团队,提供相应测试用例,为下一代硬件产品的优化提出可行性建议。
6. 和测试自动化团队合作,建立和完善高效的AI芯片性能测试系统;提高团队内性能测试和回归的工作效率。
包括英文材料
C+
C+++
Bash+
还有更多 •••
相关职位

logo of aliyun
社招5年以上云智能集团

1. 依据公共云统一架构、OpenAPI规范、软件技术栈以及交付运维体系,负责公共云异构计算产品的研发与交付。深度参与研发流程,确保产品从研发到运维的全生命周期高效管理; 2. 跟踪和了解新的异构计算产品技术和趋势,探索前沿的GPU架构设计与技术,理解业务战略及重点,基于业务需求作出高可用、高可靠、高拓展性的技术架构规划和落地; 3. 联合网络团队共同设计网络互联架构,针对分布式训练和推理业务场景,在软硬件协同及高性能网络方向上寻找性能优化的新途径,构建阿里云加速计算云服务器的核心竞争力; 4. 研发并持续改进系统的稳定性和安全性,制定稳定性策略,寻找并解决产品系统中的潜在风险和瓶颈,覆盖线上疑难杂症问题,提高产品稳定性和性能确保平台的安全可靠运行,并不断提升对外服务质量标准。

更新于 2025-12-06杭州|上海
logo of aliyun
社招5年以上云智能集团

1. 依据公共云统一架构、OpenAPI规范、软件技术栈以及交付运维体系,负责公共云异构计算产品的研发与交付。深度参与研发流程,确保产品从研发到运维的全生命周期高效管理; 2. 跟踪和了解新的异构计算产品技术和趋势,探索前沿的GPU架构设计与技术,理解业务战略及重点,基于业务需求作出高可用、高可靠、高拓展性的技术架构规划和落地; 3. 联合网络团队共同设计网络互联架构,针对分布式训练和推理业务场景,在软硬件协同及高性能网络方向上寻找性能优化的新途径,构建阿里云加速计算云服务器的核心竞争力; 4. 研发并持续改进系统的稳定性和安全性,制定稳定性策略,寻找并解决产品系统中的潜在风险和瓶颈,覆盖线上疑难杂症问题,提高产品稳定性和性能确保平台的安全可靠运行,并不断提升对外服务质量标准。

更新于 2026-01-05杭州|上海
logo of aliyun
社招5年以上云智能集团

1. 依据公共云统一架构、OpenAPI规范、软件技术栈以及交付运维体系,负责专属云产品的研发与交付。深度参与灵骏裸金属服务器及EGS云计算服务器的研发流程,包括硬件架构预研、方案设计、软硬件结合的系统优化、线上服务质量保证以及提供专家技术支持等关键环节,确保产品从研发到运维的全生命周期高效管理。 2. 跟踪并把握GPU架构设计的发展趋势,探索前沿的GPU架构设计技术。联合高性能网络团队共同设计网络互联架构,针对分布式训练和推理业务场景,在软硬件协同及高性能网络方向上寻找性能优化的新途径,构建阿里云加速计算云服务器的核心竞争力。 3. 研发并持续改进系统的稳定性和安全性,确保平台的安全可靠运行,并不断提升对外服务质量标准。

更新于 2025-11-09杭州|上海
logo of aliyun
社招5年以上云智能集团

1. 依据公共云统一架构、OpenAPI规范、软件技术栈以及交付运维体系,负责公共云异构计算产品的研发与交付。深度参与研发流程,确保产品从研发到运维的全生命周期高效管理; 2. 跟踪和了解新的异构计算产品技术和趋势,探索前沿的GPU架构设计与技术,理解业务战略及重点,基于业务需求作出高可用、高可靠、高拓展性的技术架构规划和落地; 3. 联合网络团队共同设计网络互联架构,针对分布式训练和推理业务场景,在软硬件协同及高性能网络方向上寻找性能优化的新途径,构建阿里云加速计算云服务器的核心竞争力; 4. 研发并持续改进系统的稳定性和安全性,制定稳定性策略,寻找并解决产品系统中的潜在风险和瓶颈,覆盖线上疑难杂症问题,提高产品稳定性和性能确保平台的安全可靠运行,并不断提升对外服务质量标准。

更新于 2025-11-09杭州|上海