平头哥平头哥-AI互联通信软件专家-杭州
任职要求
1. 计算机/电子/通信/数学相关专业硕士及以上学历,以及 3 年以上 AI 或半导体软件开发相关从业经验; 2. 熟练掌握 C/C++,具备优秀的程序开发、设计和调试能力; 3. 熟练掌握各种基本算法,对操作系统、计算机体系结构有不错理解; 4. 满足以下任一条件者从优: - 做过 NCCL、NVSHMEM 、DeepEP 或 MPI 等集合通信库适配或优化等工作; - 做过 Megatron、DeepSpeed、vLLM 或 sglang 等框架下多卡或多机功能问题分析或性能调优等工作; - 有可编程异构芯片(如GPU/NPU/AI 芯片)架构设计或软件适配、优化等相关从业经历; - 熟悉 AllReduce、AllGather 及 AlltoAll 等典型集合运算操作的算法; - 熟悉网络通信中与 topo 设计、路由规划等相关的做法; - 熟悉 CUDA/OpenCL/OpenMP/OpenMPI/OpenSHMEM 等任一编程模型; - 熟悉 RDMA 网络构建、优化与故障定位,有 ibverbs 编程经验; 5. 良好的自我驱动能力及文档梳理能力
工作职责
团队介绍 我们是平头哥AI 芯片软件互联团队,主要职责是积极拥抱社区生态、并基于平头哥AI 芯片产品来打造我们自己的互联通信库。 越来越好的大模型对算力需求日益高涨,而大模型训练与推理的高效部署都依赖越来越多的芯片通过互联在一起,高效协同以发挥出线性增长的计算效率。我们会与架构/硬件/Model 同学紧密合作以共同打造越来越符合业界需求的芯片,同时也会协同服务器/网络等伙伴共同打造基于平头哥芯片的高性能集群 solution,还会深入到各种应用场景去洞察并满足用户对多卡训练、推理在性能、鲁棒性、故障定位等各方面的需求,协同各方共同打造最高效、易用的平头哥多卡产品软件解决方案。 职位描述 1. 为芯片设计开发高性能、有竞争力的互联通信库; 2. 基于芯片、服务器、网络集群架构特性与互联通信应用模式进行极致性能优化; 3. 增强在大规模机器任务下发生 hang 或 crash 时的专家分析与诊断、定位能力; 4. 支持多卡或多机互联场景下各种用户问题分析与定位; 5. 和其他团队紧密合作,影响芯片、服务器与集群架构等方案设计和演进。
团队介绍 我们是平头哥AI 芯片软件互联团队,主要职责是积极拥抱社区生态、并基于平头哥AI 芯片产品来打造我们自己的互联通信库。 越来越好的大模型对算力需求日益高涨,而大模型训练与推理的高效部署都依赖越来越多的芯片通过互联在一起,高效协同以发挥出线性增长的计算效率。我们会与架构/硬件/Model 同学紧密合作以共同打造越来越符合业界需求的芯片,同时也会协同服务器/网络等伙伴共同打造基于平头哥芯片的高性能集群 solution,还会深入到各种应用场景去洞察并满足用户对多卡训练、推理在性能、鲁棒性、故障定位等各方面的需求,协同各方共同打造最高效、易用的平头哥多卡产品软件解决方案。 职位描述 1. 为芯片设计开发高性能、有竞争力的互联通信库; 2. 基于芯片、服务器、网络集群架构特性与互联通信应用模式进行极致性能优化; 3. 增强在大规模机器任务下发生 hang 或 crash 时的专家分析与诊断、定位能力; 4. 支持多卡或多机互联场景下各种用户问题分析与定位; 5. 和其他团队紧密合作,影响芯片、服务器与集群架构等方案设计和演进。
1. 依据公共云统一架构、OpenAPI规范、软件技术栈以及交付运维体系,负责专属云产品的研发与交付。深度参与灵骏裸金属服务器及EGS云计算服务器的研发流程,包括硬件架构预研、方案设计、软硬件结合的系统优化、线上服务质量保证以及提供专家技术支持等关键环节,确保产品从研发到运维的全生命周期高效管理。 2. 跟踪并把握GPU架构设计的发展趋势,探索前沿的GPU架构设计技术。联合高性能网络团队共同设计网络互联架构,针对分布式训练和推理业务场景,在软硬件协同及高性能网络方向上寻找性能优化的新途径,构建阿里云加速计算云服务器的核心竞争力。 3. 研发并持续改进系统的稳定性和安全性,确保平台的安全可靠运行,并不断提升对外服务质量标准。
1、负责基础研发领域的重点项目管理,从前期规划到技术方案设计、过程开发、结果验收、复盘收尾等阶段完整的项目全生命周期管控,基于对项目目标、方案的的理解,基于互联网研发模式,发挥强推动与跨部门、跨部门的协同能力,确保项目目标的达成; 2、有研发管理、项目管理的专业方法论基础,能够因地制宜地提出适合不同类型的技术项目管理、工时管理、文档管理、敏捷提效的方案,并推动方案落地; 3、负责基础工程重点项目/战役,方案管理,对项目的进度、质量、成本进行整体把控,交付过程标准化,达成交付目标; 4、负责建立与对口相关方的沟通机制,熟悉所支持部门的整体架构,对技术规划有理解及价值判断; 5、熟练运用OKR、敏捷项目管理的方法与工具,通过数字化敏捷管理的方式实现业-产-研协同在线化; 6、总结并沉淀相关项目管理实战经验,赋能项目和团队,提升整体效率。