logo of thead

平头哥平头哥-AI互联通信软件专家-上海/杭州

社招全职5年以上技术-芯片地点:上海 | 杭州状态:招聘

任职要求


1. 计算机/电子/通信/数学相关专业硕士及以上学历,以及 3 年以上 AI 或半导体软件开发相关从业经验;
2. 熟练掌握 C/C++,具备优秀的程序开发、设计和调试能力;
3. 熟练掌握各种基本算法,对操作系统、计算机体系结构有不错理解;
4. 满足以下任一条件者从优:
- 做过 NCCL、NVSHMEM 、DeepEP 或 MPI 等集合通信库适配或优化等工作;
- 做过 Megatron、DeepSpeed、vLLM 或 sglang 等框架下多卡或多机功能问题分析或性能调优等工作;
- 有可编程异构芯片(如GPU/NPU/AI 芯片)架构设计或软件适配、优化等相关从业经历;
- 熟悉 AllReduce、AllGather 及 AlltoAll 等典型集合运算操作的算法;
- 熟悉网络通信中与 topo 设计、路由规划等相关的做法;
- 熟悉 CUDA/OpenCL/OpenMP/OpenMPI/OpenSHMEM 等任一编程模型;
- 熟悉 RDMA 网络构建、优化与故障定位,有 ibverbs 编程经验;
5. 良好的自我驱动能力及文档梳理能力

工作职责


团队介绍
我们是平头哥AI 芯片软件互联团队,主要职责是积极拥抱社区生态、并基于平头哥AI 芯片产品来打造我们自己的互联通信库。
越来越好的大模型对算力需求日益高涨,而大模型训练与推理的高效部署都依赖越来越多的芯片通过互联在一起,高效协同以发挥出线性增长的计算效率。我们会与架构/硬件/Model 同学紧密合作以共同打造越来越符合业界需求的芯片,同时也会协同服务器/网络等伙伴共同打造基于平头哥芯片的高性能集群 solution,还会深入到各种应用场景去洞察并满足用户对多卡训练、推理在性能、鲁棒性、故障定位等各方面的需求,协同各方共同打造最高效、易用的平头哥多卡产品软件解决方案。
职位描述
1. 为芯片设计开发高性能、有竞争力的互联通信库;
2. 基于芯片、服务器、网络集群架构特性与互联通信应用模式进行极致性能优化;
3. 增强在大规模机器任务下发生 hang 或 crash 时的专家分析与诊断、定位能力;
4. 支持多卡或多机互联场景下各种用户问题分析与定位;
5. 和其他团队紧密合作,影响芯片、服务器与集群架构等方案设计和演进。
包括英文材料
学历+
C+
C+++
算法+
Message Passing Interface+
Megatron+
SGLang+
性能调优+
系统设计+
CUDA+
OpenCL+
相关职位

logo of aliyun
社招5年以上技术类-开发

1. 依据公共云统一架构、OpenAPI规范、软件技术栈以及交付运维体系,负责专属云产品的研发与交付。深度参与灵骏裸金属服务器及EGS云计算服务器的研发流程,包括硬件架构预研、方案设计、软硬件结合的系统优化、线上服务质量保证以及提供专家技术支持等关键环节,确保产品从研发到运维的全生命周期高效管理。 2. 跟踪并把握GPU架构设计的发展趋势,探索前沿的GPU架构设计技术。联合高性能网络团队共同设计网络互联架构,针对分布式训练和推理业务场景,在软硬件协同及高性能网络方向上寻找性能优化的新途径,构建阿里云加速计算云服务器的核心竞争力。 3. 研发并持续改进系统的稳定性和安全性,确保平台的安全可靠运行,并不断提升对外服务质量标准。

更新于 2025-06-18
logo of liauto
社招10年以上智能与信息技术

作为深度学习芯片的互联架构的架构师,全流程负责AI基础设施的集群分布式架构设计。主要职责包括: 1.通信负载分析,拓扑选型,通信性能的分析和算法优化工作。 2.负责设计和规划AI Backend网络互联架构,确保高效的数据传输和通信。 3.评估和选择适合的网络技术、设备和协议,优化网络配置,提高网络带宽、降低延迟,提升集群整体效率。解决网络相关的技术难题和故障,保障集群的稳定运行。 4.与硬件工程师、软件工程师等团队紧密合作,确保网络架构与整体系统的兼容性和协同性。跟踪和研究最新的网络技术发展趋势,为集群的持续优化和升级提供建议和方案。

logo of thead
社招5年以上技术-芯片

团队介绍 我们是平头哥AI 芯片软件互联团队,主要职责是积极拥抱社区生态、并基于平头哥AI 芯片产品来打造我们自己的互联通信库。 越来越好的大模型对算力需求日益高涨,而大模型训练与推理的高效部署都依赖越来越多的芯片通过互联在一起,高效协同以发挥出线性增长的计算效率。我们会与架构/硬件/Model 同学紧密合作以共同打造越来越符合业界需求的芯片,同时也会协同服务器/网络等伙伴共同打造基于平头哥芯片的高性能集群 solution,还会深入到各种应用场景去洞察并满足用户对多卡训练、推理在性能、鲁棒性、故障定位等各方面的需求,协同各方共同打造最高效、易用的平头哥多卡产品软件解决方案。 职位描述 1. 为芯片设计开发高性能、有竞争力的互联通信库; 2. 基于芯片、服务器、网络集群架构特性与互联通信应用模式进行极致性能优化; 3. 增强在大规模机器任务下发生 hang 或 crash 时的专家分析与诊断、定位能力; 4. 支持多卡或多机互联场景下各种用户问题分析与定位; 5. 和其他团队紧密合作,影响芯片、服务器与集群架构等方案设计和演进。

更新于 2025-08-27
logo of oppo
社招8-15年SOFTWARE

一、软件技术规划专家 — OS方向 主导智能手机操作系统(OS)的技术规划与架构演进,构建高性能、安全可靠、体验领先的OS技术底座,并推动跨终端OS生态协同,支撑公司终端产品全球竞争力提升: 1、OS技术战略规划:洞察全球操作系统技术趋势(Android/AOSP/Linux/RTOS/微内核等),制定3-5年OS技术路线图,定义关键子系统核心技术竞争力(如内核调度、安全架构、跨端互联、分布式多媒体、图形、AI等子系统) 2、OS-软硬协同规划:联合芯片团队,主导OS对新型硬件能力(CPU/NPU/GPU)的底层支持与性能调优规划;设计硬件抽象层(HAL)标准化方案,降低多芯片平台、多OS形态适配与维护成本 3、跨端OS技术整合:设计手机与IoT/车机/XR设备的OS协同架构(分布式软总线、多端任务迁移);主导跨端安全互联协议、数据互通框架、跨端AI等技术等标准化 4、OS逆向工程分析:主导OS核心架构及各子系统逆向工程分析(iOS、Android、RTOS、Linux等),详细拆解关键OS子系统能力,为OS技术规划提供技术竞争参考 二、软件技术规划与合作专家 — 芯片方向 负责智能手机芯片平台的前沿技术规划、软件生态合作及跨部门技术协同,推动芯片与系统软件的深度整合,打造高性能、低功耗、差异化的终端产品竞争力: 1、技术趋势洞察与规划:跟踪全球芯片技术(SoC/AP/ISP/NPU等)发展趋势,分析其对智能手机软件架构的影响;主导芯片平台的软件技术路线图制定,定义关键能力(如AI算力调度、能效优化、异构计算等) 2、芯片-软件协同设计:深度参与芯片选型与定义,确保硬件特性与系统层(驱动/Kernel/框架)的协同优化;推动芯片厂商(如高通、联发科、自研芯片团队)与内部软件团队的联合技术攻关 3、生态合作与资源整合:建立并维护与芯片厂商、IP供应商的战略合作关系,主导技术合作项目落地;整合芯片层能力(如AI引擎、安全模块、图像处理单元)至上层应用生态 4、技术竞争力构建:主导芯片平台性能、能效、稳定性等核心指标的软件优化方案,形成技术壁垒;探索创新场景(如端侧大模型、实时渲染、传感器融合)的芯片-软件协同方案 5、跨部门协同与赋能:联动硬件研发、系统开发、产品规划团队,确保技术规划与产品需求对齐;输出芯片技术白皮书、开发者指南,赋能内部团队及生态合作伙伴

更新于 2025-09-10