logo of thead

平头哥平头哥-AI互联通信软件专家-上海/杭州

社招全职5年以上技术-芯片地点:上海 | 杭州状态:招聘

任职要求


1. 计算机/电子/通信/数学相关专业硕士及以上学历,以及 3 年以上 AI 或半导体软件开发相关从业经验;
2. 熟练掌握 C/C++,具备优秀的程序开发、设计和调试能力;
3. 熟练掌握各种基本算法,对操作系统、计算机体系结构有不错理解;
4. 满足以下任一条件者从优:
- 做过 NCCL、NVSHMEM 、DeepEP 或 MPI 等集合通信库适配或优化等工作;
- 做过 Megatron、DeepSpeed、vLLM 或 sglang 等框架下多卡或多机功能问题分析或性能调…
登录查看完整任职要求
微信扫码,1秒登录

工作职责


团队介绍
我们是平头哥AI 芯片软件互联团队,主要职责是积极拥抱社区生态、并基于平头哥AI 芯片产品来打造我们自己的互联通信库。
越来越好的大模型对算力需求日益高涨,而大模型训练与推理的高效部署都依赖越来越多的芯片通过互联在一起,高效协同以发挥出线性增长的计算效率。我们会与架构/硬件/Model 同学紧密合作以共同打造越来越符合业界需求的芯片,同时也会协同服务器/网络等伙伴共同打造基于平头哥芯片的高性能集群 solution,还会深入到各种应用场景去洞察并满足用户对多卡训练、推理在性能、鲁棒性、故障定位等各方面的需求,协同各方共同打造最高效、易用的平头哥多卡产品软件解决方案。
职位描述
1. 为芯片设计开发高性能、有竞争力的互联通信库;
2. 基于芯片、服务器、网络集群架构特性与互联通信应用模式进行极致性能优化;
3. 增强在大规模机器任务下发生 hang 或 crash 时的专家分析与诊断、定位能力;
4. 支持多卡或多机互联场景下各种用户问题分析与定位;
5. 和其他团队紧密合作,影响芯片、服务器与集群架构等方案设计和演进。
包括英文材料
学历+
C+
C+++
算法+
Message Passing Interface+
Megatron+
还有更多 •••
相关职位

logo of aliyun
社招5年以上云智能集团

1. 依据公共云统一架构、OpenAPI规范、软件技术栈以及交付运维体系,负责专属云产品的研发与交付。深度参与灵骏裸金属服务器及EGS云计算服务器的研发流程,包括硬件架构预研、方案设计、软硬件结合的系统优化、线上服务质量保证以及提供专家技术支持等关键环节,确保产品从研发到运维的全生命周期高效管理。 2. 跟踪并把握GPU架构设计的发展趋势,探索前沿的GPU架构设计技术。联合高性能网络团队共同设计网络互联架构,针对分布式训练和推理业务场景,在软硬件协同及高性能网络方向上寻找性能优化的新途径,构建阿里云加速计算云服务器的核心竞争力。 3. 研发并持续改进系统的稳定性和安全性,确保平台的安全可靠运行,并不断提升对外服务质量标准。

更新于 2025-11-09杭州|上海
logo of aliyun
社招5年以上云智能集团

1. 依据公共云统一架构、OpenAPI规范、软件技术栈以及交付运维体系,负责公共云异构计算产品的研发与交付。深度参与研发流程,确保产品从研发到运维的全生命周期高效管理; 2. 跟踪和了解新的异构计算产品技术和趋势,探索前沿的GPU架构设计与技术,理解业务战略及重点,基于业务需求作出高可用、高可靠、高拓展性的技术架构规划和落地; 3. 联合网络团队共同设计网络互联架构,针对分布式训练和推理业务场景,在软硬件协同及高性能网络方向上寻找性能优化的新途径,构建阿里云加速计算云服务器的核心竞争力; 4. 研发并持续改进系统的稳定性和安全性,制定稳定性策略,寻找并解决产品系统中的潜在风险和瓶颈,覆盖线上疑难杂症问题,提高产品稳定性和性能确保平台的安全可靠运行,并不断提升对外服务质量标准。

更新于 2025-11-09杭州|上海
logo of liauto
社招10年以上智能与信息技术

作为深度学习芯片的互联架构的架构师,全流程负责AI基础设施的集群分布式架构设计。主要职责包括: 1.通信负载分析,拓扑选型,通信性能的分析和算法优化工作。 2.负责设计和规划AI Backend网络互联架构,确保高效的数据传输和通信。 3.评估和选择适合的网络技术、设备和协议,优化网络配置,提高网络带宽、降低延迟,提升集群整体效率。解决网络相关的技术难题和故障,保障集群的稳定运行。 4.与硬件工程师、软件工程师等团队紧密合作,确保网络架构与整体系统的兼容性和协同性。跟踪和研究最新的网络技术发展趋势,为集群的持续优化和升级提供建议和方案。

上海
logo of thead
社招5年以上技术-芯片

团队介绍 我们是平头哥AI 芯片软件互联团队,主要职责是积极拥抱社区生态、并基于平头哥AI 芯片产品来打造我们自己的互联通信库。 越来越好的大模型对算力需求日益高涨,而大模型训练与推理的高效部署都依赖越来越多的芯片通过互联在一起,高效协同以发挥出线性增长的计算效率。我们会与架构/硬件/Model 同学紧密合作以共同打造越来越符合业界需求的芯片,同时也会协同服务器/网络等伙伴共同打造基于平头哥芯片的高性能集群 solution,还会深入到各种应用场景去洞察并满足用户对多卡训练、推理在性能、鲁棒性、故障定位等各方面的需求,协同各方共同打造最高效、易用的平头哥多卡产品软件解决方案。 职位描述 1. 为芯片设计开发高性能、有竞争力的互联通信库; 2. 基于芯片、服务器、网络集群架构特性与互联通信应用模式进行极致性能优化; 3. 增强在大规模机器任务下发生 hang 或 crash 时的专家分析与诊断、定位能力; 4. 支持多卡或多机互联场景下各种用户问题分析与定位; 5. 和其他团队紧密合作,影响芯片、服务器与集群架构等方案设计和演进。

更新于 2025-08-27杭州