logo of aliyun

阿里云阿里云智能-高性能网络高级架构师-杭州/北京

社招全职8年以上云智能集团地点:北京 | 杭州状态:招聘

任职要求


• 计算机科学、网络工程、通信工程或相关专业;
• 8 年以上高性能网络( AI 基础设施)架构设计经验;
• 精通 RDMA 技术栈(InfiniBand / RoCE),熟悉 libibverbs 编程模型、MR 管理、QP 状态机等核心概念;
• 深入了解主流 RDMA 网卡(NVIDIA ConnectX-5/6/7)的特性与调优方法,有实际部署和性能优化经验;
• 熟悉数据中心网络架构(Spine-Leaf / Fat-Tree / Dragonfly 等),具备大规模(千卡以上)集群网络设计经验;
• …
登录查看完整任职要求
微信扫码,1秒登录

工作职责


负责高性能网络系统的架构设计与技术演进,围绕 RDMA网络、超节点 等核心技术,构建低延迟、高吞吐的网络基础设施,支撑 Agent时代的AI 推理和训练、分布式存储、KV cache等业务场景。作为网络架构师,推动技术选型、方案落地与团队能力建设。
核心职责
• 主导高性能网络架构的规划与设计,涵盖数据中心网络拓扑、RDMA 网络方案、集合通信优化等方向;
• 负责ScaleOut和ScaleUP网络的选型、部署、调优及故障排查,保障大规模集群的网络性能与稳定性;
• 深入理解商用网的特性和自研网卡的开发,推动硬件能力与业务场景的深度结合;
• 设计并优化 AI 训练场景下的集合通信方案,包括 NCCL 调优、网络拓扑感知调度、流量工程等;
• 推动网络可观测性体系建设,建立网络性能基线、异常检测和根因分析能力;
• 跟踪业界前沿技术发展,输出技术洞察与演进路线;
• 与上层业务团队紧密协作,端到端解决跨领域性能瓶颈。
包括英文材料
系统设计+
MapReduce+
还有更多 •••