阿里云阿里云智能-高性能网络高级架构师-北京/杭州
社招全职8年以上云智能集团地点:北京 | 杭州状态:招聘
任职要求
• 计算机科学、网络工程、通信工程或相关专业; • 8 年以上高性能网络( AI 基础设施)架构设计经验; • 精通 RDMA 技术栈(InfiniBand / RoCE),熟悉 libibverbs 编程模型、MR 管理、QP 状态机等核心概念; • 深入了解主流 RDMA 网卡(NVIDIA ConnectX-5/6/7)的特性与调优方法,有实际部署和性能优化经验; • 熟悉数据中心网络架构(Spine-Leaf / Fat-Tree / Dragonfly 等),具备大规模(千卡以上)集群网络设计经验; • …
登录查看完整任职要求
微信扫码,1秒登录
工作职责
负责高性能网络系统的架构设计与技术演进,围绕 RDMA网络、超节点 等核心技术,构建低延迟、高吞吐的网络基础设施,支撑 Agent时代的AI 推理和训练、分布式存储、KV cache等业务场景。作为网络架构师,推动技术选型、方案落地与团队能力建设。 核心职责 • 主导高性能网络架构的规划与设计,涵盖数据中心网络拓扑、RDMA 网络方案、集合通信优化等方向; • 负责ScaleOut和ScaleUP网络的选型、部署、调优及故障排查,保障大规模集群的网络性能与稳定性; • 深入理解商用网的特性和自研网卡的开发,推动硬件能力与业务场景的深度结合; • 设计并优化 AI 训练场景下的集合通信方案,包括 NCCL 调优、网络拓扑感知调度、流量工程等; • 推动网络可观测性体系建设,建立网络性能基线、异常检测和根因分析能力; • 跟踪业界前沿技术发展,输出技术洞察与演进路线; • 与上层业务团队紧密协作,端到端解决跨领域性能瓶颈。
包括英文材料
系统设计+
https://roadmap.sh/system-design
Everything you need to know about designing large scale systems.
https://www.youtube.com/watch?v=F2FmTdLtb_4
This complete system design tutorial covers scalability, reliability, data handling, and high-level architecture with clear explanations, real-world examples, and practical strategies.
MapReduce+
https://www.youtube.com/watch?v=bcjSe0xCHbE
https://www.youtube.com/watch?v=cHGaQz0E7AU
In this video I explain the basics of Map Reduce model, an important concept for any software engineer to be aware of.
还有更多 •••