腾讯数据中心AI网络方向工程师

社招全职TEG技术2025-06-11地点：深圳状态：招聘

扫码手机上打开

任职要求

1.教育背景：硕士及以上学历，计算机、通信、电子工程、高性能计算等相关专业；
2.核心技能（有以下经验者优先）：熟悉CUDA(CUDA graph, kernel, stream, PTX ISA)开发流程；掌握Cuda Core/Tensor Core的混合精度计算原理，熟悉FP16/FP32/TF32等的运算优化方法；熟悉 G…

登录查看完整任职要求

微信扫码，1秒登录

工作职责

1.GPU集群通信架构设计与优化：负责数据中心AI场景下GPU集群通信架构的设计与开发，优化多卡/多机通信性能，提升分布式训练效率；研究并实现GPU与网络设备（如交换机、RDMA网卡）的协同工作，解决通信延迟、带宽瓶颈等关键问题；
2.通信库与驱动开发：开发高性能GPU通信库（NCCL/DeepEP/NVsharemem 等），适配主流AI框架（TensorFlow/PyTorch），支持大规模集群通信需求；
3.GPU通信性能调优：分析通信性能瓶颈（硬件/软件层面），通过算法优化、代码重构或硬件选型提升整体吞吐量；与硬件团队协作，验证GPU新架构的通信能力，提供技术反馈与改进建议；
4.生态兼容与标准化：参与制定GPU通信协议标准，推动异构计算生态的互联互通。

📮 投递简历 ✨AI模拟面试

难度：

包括英文材料

学历+

CUDA+

还有更多 •••

登录查看完整学习资料

相关职位

数据中心AI网络方向工程师

社招TEG技术

1.GPU集群通信架构设计与优化：负责数据中心AI场景下GPU集群通信架构的设计与开发，优化多卡/多机通信性能，提升分布式训练效率；研究并实现GPU与网络设备（如交换机、RDMA网卡）的协同工作，解决通信延迟、带宽瓶颈等关键问题； 2.通信库与驱动开发：开发高性能GPU通信库（NCCL/DeepEP/NVsharemem 等），适配主流AI框架（TensorFlow/PyTorch），支持大规模集群通信需求； 3.GPU通信性能调优：分析通信性能瓶颈（硬件/软件层面），通过算法优化、代码重构或硬件选型提升整体吞吐量；与硬件团队协作，验证GPU新架构的通信能力，提供技术反馈与改进建议； 4.生态兼容与标准化：参与制定GPU通信协议标准，推动异构计算生态的互联互通。

更新于 2025-06-11北京

【快Star-X】光和数据通信技术工程师-AI网络方向

校招J1020

1、负责面向AI应用的网络技术演进方向研究，包含单不限于不同形态的Scale-out，Scale-up及Scale-out和Scale-up融合等技术演进方向 2、负责普惠高性能网络的技术演进方向研究，扩展高性能网络应用场景，使更多应用能够享受高性能网络所带来的技术红利 3、负责网络架构演进方向研究，包括业务需求梳理，组网拓扑设计，网络功能定义，芯片选型等具体工作内容，涉及数据中心网络，数据中心互联网络等关键领域

更新于 2025-06-24北京

平头哥-AI集群运维专家（机房与网络方向）-上海

社招5年以上技术-芯片

我们正在寻找一位熟悉数据中心建设、服务器部署与高性能网络运维的优秀工程师，加入我们致力于构建*下一代AI算力基础设施的核心团队。你将参与企业级GPU集群的规划、部署与持续优化，支撑大语言模型（LLM）千亿级参数训练任务的稳定运行。如果你热爱“硬核”系统工程，关注物理层到网络层的极致性能，并希望在AI时代打造真正的“算力底座”，欢迎加入！你将负责： 1. AI数据中心规划与机房部署参与新建或改造AI专用机房，完成服务器上架、电源配比、散热方案评估、PDU/UPS/BMC等基础设施配置，确保高密度GPU集群的可靠运行。 2. 大规模GPU集群部署与维护主导NVIDIA A100/H100等高端GPU服务器的初始化、固件升级、驱动安装与健康监控；建立标准化部署流程（自动化装机、配置管理），提升交付效率。 3. 高性能网络架构支持（RDMA/InfiniBand/RoCE）配合网络团队完成IB/RoCE网络部署，配置子网管理器（SM）、交换机（如 Mellanox/NVIDIA Quantum-2）、路由策略；保障低延迟、高带宽通信满足AllReduce需求。 4. NCCL通信性能调优与故障排查协助算法团队分析分布式训练中的通信瓶颈，结合nccl-tests、ibstat、ethtool等工具进行链路诊断；优化GPU拓扑（NVLink/NVSwitch）、NUMA绑定、MTU设置等关键参数。 5. 基础设施监控与自动化运维搭建硬件健康监控体系（温度、功耗、风扇、ECC错误等），集成Prometheus + Grafana + Alertmanager；编写脚本实现自动巡检、告警响应与故障定位。 6. 跨团队协作支持训练平台稳定运行与开发、QA团队协同，为大模型训练提供稳定、高效的底层算力环境，快速响应宕机、链路中断、丢包等紧急问题。

更新于 2026-03-24上海

阿里云智能-云网络系统研究工程师（AI方向）-杭州

社招3年以上云智能集团

1. 面向 AI 业务的网络架构设计与演进 ○ 负责支持大规模 AI 训练/推理集群的网络架构规划与方案设计，覆盖 AI access 网络、frontend 网络、AI scale up 网络等关键环节。 ○ 结合业务场景识别网络接入、流量调度、数据分发链路中的性能和可靠性瓶颈，提出系统级优化方案。 2. 高性能多路径传输与 RDMA 方向创新 ○ 深入调研业界前沿应用层多路径传输、RDMA 及相关协议栈优化技术，系统性分析其优缺点与适用场景。 ○ 基于阿里云大规模生产环境，设计并落地面向 AI 流量的多路径传输优化机制，实现端到端的高带宽、低时延和高稳定性。 3. 网络系统研发与产品化落地 ○ 将整体技术方案拆解为可实施的技术点，完成可行性分析、技术规范制定与验收标准设计。 ○ 主导关键模块的架构设计与核心代码开发，构建可快速迭代的原型系统，验证技术路线。 ○ 在验证基础上持续进行性能优化与工程化改造，推动方案产品化落地，并支撑大规模部署和运营。 4. 稳定性与性能优化 ○ 制定并实施面向超大规模集群的稳定性保障策略，从架构设计、协议栈实现、流控/调度策略等多层面建设高可用能力。 ○ 在真实业务环境中开展端到端性能剖析与容量规划，识别热点与瓶颈，落地针对性优化措施，保障高负载下的稳定性能表现。 5. 数智一体的网络分析与智能运维 ○ 利用大数据与大语言模型，设计并研发超大规模网络分析与智能运维系统，提升网络研发、运营、运维、测试效率。 ○ 探索 AI for Network 的创新场景，如异常检测、故障根因定位、智能调度策略优化等。 6. 学术前沿跟踪与技术影响力建设 ○ 持续跟踪计算机网络、AI infra、可编程网络硬件等领域的前沿研究与产业趋势，并评估其在阿里云场景中的落地价值。 ○ 鼓励/支持在 SIGCOMM、NSDI、ATC 等顶会发表论文或输出技术分享，增强团队和个人在业界的技术影响力。

更新于 2025-12-24杭州