腾讯数据中心AI网络方向工程师
任职要求
1.教育背景:硕士及以上学历,计算机、通信、电子工程、高性能计算等相关专业; 2.核心技能(有以下经验者优先):熟悉CUDA(CUDA graph, kernel, stream, PTX ISA)开发流程;掌握Cuda Core/Tensor Core的混合精度计算原理,熟悉FP16/FP32/TF32等的运算优化方法;熟悉 G…
工作职责
1.GPU集群通信架构设计与优化:负责数据中心AI场景下GPU集群通信架构的设计与开发,优化多卡/多机通信性能,提升分布式训练效率;研究并实现GPU与网络设备(如交换机、RDMA网卡)的协同工作,解决通信延迟、带宽瓶颈等关键问题; 2.通信库与驱动开发:开发高性能GPU通信库(NCCL/DeepEP/NVsharemem 等),适配主流AI框架(TensorFlow/PyTorch),支持大规模集群通信需求; 3.GPU通信性能调优:分析通信性能瓶颈(硬件/软件层面),通过算法优化、代码重构或硬件选型提升整体吞吐量;与硬件团队协作,验证GPU新架构的通信能力,提供技术反馈与改进建议; 4.生态兼容与标准化:参与制定GPU通信协议标准,推动异构计算生态的互联互通。
1.GPU集群通信架构设计与优化:负责数据中心AI场景下GPU集群通信架构的设计与开发,优化多卡/多机通信性能,提升分布式训练效率;研究并实现GPU与网络设备(如交换机、RDMA网卡)的协同工作,解决通信延迟、带宽瓶颈等关键问题; 2.通信库与驱动开发:开发高性能GPU通信库(NCCL/DeepEP/NVsharemem 等),适配主流AI框架(TensorFlow/PyTorch),支持大规模集群通信需求; 3.GPU通信性能调优:分析通信性能瓶颈(硬件/软件层面),通过算法优化、代码重构或硬件选型提升整体吞吐量;与硬件团队协作,验证GPU新架构的通信能力,提供技术反馈与改进建议; 4.生态兼容与标准化:参与制定GPU通信协议标准,推动异构计算生态的互联互通。
1、负责面向AI应用的网络技术演进方向研究,包含单不限于不同形态的Scale-out,Scale-up及Scale-out和Scale-up融合等技术演进方向 2、负责普惠高性能网络的技术演进方向研究,扩展高性能网络应用场景,使更多应用能够享受高性能网络所带来的技术红利 3、负责网络架构演进方向研究,包括业务需求梳理,组网拓扑设计,网络功能定义,芯片选型等具体工作内容,涉及数据中心网络,数据中心互联网络等关键领域
我们正在寻找一位熟悉数据中心建设、服务器部署与高性能网络运维的优秀工程师,加入我们致力于构建*下一代AI算力基础设施的核心团队。 你将参与企业级GPU集群的规划、部署与持续优化,支撑大语言模型(LLM)千亿级参数训练任务的稳定运行。如果你热爱“硬核”系统工程,关注物理层到网络层的极致性能,并希望在AI时代打造真正的“算力底座”,欢迎加入! 你将负责: 1. AI数据中心规划与机房部署 参与新建或改造AI专用机房,完成服务器上架、电源配比、散热方案评估、PDU/UPS/BMC等基础设施配置,确保高密度GPU集群的可靠运行。 2. 大规模GPU集群部署与维护 主导NVIDIA A100/H100等高端GPU服务器的初始化、固件升级、驱动安装与健康监控;建立标准化部署流程(自动化装机、配置管理),提升交付效率。 3. 高性能网络架构支持(RDMA/InfiniBand/RoCE) 配合网络团队完成IB/RoCE网络部署,配置子网管理器(SM)、交换机(如 Mellanox/NVIDIA Quantum-2)、路由策略;保障低延迟、高带宽通信满足AllReduce需求。 4. NCCL通信性能调优与故障排查 协助算法团队分析分布式训练中的通信瓶颈,结合nccl-tests、ibstat、ethtool等工具进行链路诊断;优化GPU拓扑(NVLink/NVSwitch)、NUMA绑定、MTU设置等关键参数。 5. 基础设施监控与自动化运维 搭建硬件健康监控体系(温度、功耗、风扇、ECC错误等),集成Prometheus + Grafana + Alertmanager;编写脚本实现自动巡检、告警响应与故障定位。 6. 跨团队协作支持训练平台稳定运行 与开发、QA团队协同,为大模型训练提供稳定、高效的底层算力环境,快速响应宕机、链路中断、丢包等紧急问题。
1. 面向 AI 业务的网络架构设计与演进 ○ 负责支持大规模 AI 训练/推理集群的网络架构规划与方案设计,覆盖 AI access 网络、frontend 网络、AI scale up 网络等关键环节。 ○ 结合业务场景识别网络接入、流量调度、数据分发链路中的性能和可靠性瓶颈,提出系统级优化方案。 2. 高性能多路径传输与 RDMA 方向创新 ○ 深入调研业界前沿应用层多路径传输、RDMA 及相关协议栈优化技术,系统性分析其优缺点与适用场景。 ○ 基于阿里云大规模生产环境,设计并落地面向 AI 流量的多路径传输优化机制,实现端到端的高带宽、低时延和高稳定性。 3. 网络系统研发与产品化落地 ○ 将整体技术方案拆解为可实施的技术点,完成可行性分析、技术规范制定与验收标准设计。 ○ 主导关键模块的架构设计与核心代码开发,构建可快速迭代的原型系统,验证技术路线。 ○ 在验证基础上持续进行性能优化与工程化改造,推动方案产品化落地,并支撑大规模部署和运营。 4. 稳定性与性能优化 ○ 制定并实施面向超大规模集群的稳定性保障策略,从架构设计、协议栈实现、流控/调度策略等多层面建设高可用能力。 ○ 在真实业务环境中开展端到端性能剖析与容量规划,识别热点与瓶颈,落地针对性优化措施,保障高负载下的稳定性能表现。 5. 数智一体的网络分析与智能运维 ○ 利用大数据与大语言模型,设计并研发超大规模网络分析与智能运维系统,提升网络研发、运营、运维、测试效率。 ○ 探索 AI for Network 的创新场景,如异常检测、故障根因定位、智能调度策略优化等。 6. 学术前沿跟踪与技术影响力建设 ○ 持续跟踪计算机网络、AI infra、可编程网络硬件等领域的前沿研究与产业趋势,并评估其在阿里云场景中的落地价值。 ○ 鼓励/支持在 SIGCOMM、NSDI、ATC 等顶会发表论文或输出技术分享,增强团队和个人在业界的技术影响力。