logo of alibaba

阿里巴巴基础设施与稳定性工程-AI高性能网络通信高级专家-杭州

社招全职8年以上技术类-开发地点:杭州状态:招聘

任职要求


我们希望你具备:
1、学历背景与经验:
    ● 计算机科学、电子工程、通信工程或相关专业硕士及以上学历,具备 8年以上 高性能网络通信或大规模分布式系统研发经验。
    ● 具备 3年以上 团队管理、技术管理或资深技术负责人经验,有成功带领团队完成重要项目或攻克技术难关的实践案例。
    ● 在知名互联网公司、云计算厂商、高性能计算中心或领先AI公司有相关工作经验者优先。
2、核心技术能力:
    ● 精通 TCP/IP、UDP等网络协议,对 InfiniBand、RDMA (RoCE) 等高性能网络技术有深入理解和丰富的 实战经验。
    ● 熟悉主流高性能通信库,如 NVIDIA NCCL、Open MPI、Intel MPI、Gloo、UCX 等,具备其中至少一种的深度优化或定制开发经验。
    ● 具备大规模分布式系统(尤其是AI训练集群)的网络架构设计、性能调优和复杂故障排查能力,能够从系统、网络、应用等多维度进行问题分析。
   …
登录查看完整任职要求
微信扫码,1秒登录

工作职责


我们是谁:我们是支撑阿里AI战略的AI基础设施团队,致力于构建和优化世界领先的AI算力平台。我们管理着海量的GPU集群和先进的网络互联架构,为公司AI大模型训练、推理和前沿AI技术研发提供强大的底层支撑。我们面临着超大规模AI集群的极致性能、稳定性、成本和效率挑战,并积极探索下一代AI算力基础设施的创新。如果你对深耕高性能网络通信,赋能千亿级参数大模型训练和万亿级推理算力底座充满热情,期待在AI算力发展的黄金时代贡献核心力量,那么欢迎加入我们!
我们寻找:一位具备深厚高性能网络通信专业知识和丰富实践经验的高级技术专家,能够负责或主导AI集群网络通信架构的设计、研发与优化工作,解决大规模分布式AI系统中的核心网络瓶颈问题,为AI业务提供极致的网络性能和稳定性保障。
你的职责:
1、架构设计与优化:
    ● 负责AI训练集群、推理集群、AI存储集群等核心AI基础设施的高性能网络通信架构设计、演进和落地,确保网络在性能、可靠性、扩展性方面达到业界领先水平。
    ● 深入研究和优化底层网络协议栈,针对AI大模型训练/推理场景进行深度定制和性能挖掘。
2、核心技术攻坚:
    ● 主导或参与高性能网络通信相关的关键技术选型、方案评估及前瞻性技术预研,包括但不限于新一代高速互联技术(如InfiniBand EDR/HDR/NDR、CXL)、可编程网络、智能网卡(SmartNIC/DPU)卸载技术等。
    ● 针对超大规模AI集群中的网络瓶颈、拥塞控制、负载均衡、故障隔离与自愈等挑战,提出并实现创新的解决方案。
3、性能分析与调优:
    ● 构建和完善高性能网络通信的监控、诊断和调优体系,能够精准定位网络性能瓶颈,并进行系统级的性能优化。
    ● 与AI框架、大模型算法、系统软件等团队紧密协作,共同定义网络通信需求,提供端到端的性能优化建议和解决方案。
4、技术引领与团队赋能:
    ● 关注行业前沿技术发展趋势,积极引入和落地最新的高性能网络通信技术,推动团队的技术创新和突破。
    ● 指导和培养团队内中初级工程师,通过技术分享、项目指导等方式,提升团队整体技术能力和工程实践水平。
包括英文材料
学历+
分布式系统+
TCP/IP+
NCCL+
Message Passing Interface+
系统设计+
还有更多 •••