腾讯数据中心AI网络方向工程师
任职要求
1.教育背景:硕士及以上学历,计算机、通信、电子工程、高性能计算等相关专业; 2.核心技能(有以下经验者优先):熟悉CUDA(CUDA graph, kernel, stream, PTX ISA)开发流程;掌握Cuda Core/Tensor Core的混合精度计算原理,熟悉FP16/FP32/TF32等的运算优化方法;熟悉 G…
工作职责
1.GPU集群通信架构设计与优化:负责数据中心AI场景下GPU集群通信架构的设计与开发,优化多卡/多机通信性能,提升分布式训练效率;研究并实现GPU与网络设备(如交换机、RDMA网卡)的协同工作,解决通信延迟、带宽瓶颈等关键问题; 2.通信库与驱动开发:开发高性能GPU通信库(NCCL/DeepEP/NVsharemem 等),适配主流AI框架(TensorFlow/PyTorch),支持大规模集群通信需求; 3.GPU通信性能调优:分析通信性能瓶颈(硬件/软件层面),通过算法优化、代码重构或硬件选型提升整体吞吐量;与硬件团队协作,验证GPU新架构的通信能力,提供技术反馈与改进建议; 4.生态兼容与标准化:参与制定GPU通信协议标准,推动异构计算生态的互联互通。
1.GPU集群通信架构设计与优化:负责数据中心AI场景下GPU集群通信架构的设计与开发,优化多卡/多机通信性能,提升分布式训练效率;研究并实现GPU与网络设备(如交换机、RDMA网卡)的协同工作,解决通信延迟、带宽瓶颈等关键问题; 2.通信库与驱动开发:开发高性能GPU通信库(NCCL/DeepEP/NVsharemem 等),适配主流AI框架(TensorFlow/PyTorch),支持大规模集群通信需求; 3.GPU通信性能调优:分析通信性能瓶颈(硬件/软件层面),通过算法优化、代码重构或硬件选型提升整体吞吐量;与硬件团队协作,验证GPU新架构的通信能力,提供技术反馈与改进建议; 4.生态兼容与标准化:参与制定GPU通信协议标准,推动异构计算生态的互联互通。
1. 负责云音乐微服务、可观测性和存储相关中间件的设计与研发工作; 2. 从用户视角解决业务在使用过程中遇到的各种疑难问题,能够挖掘业务实际需求给出中间件的最佳实践与演进方案; 3. 以产品化思维完善中间件相关设计,打造稳定、易用的微服务与中间件解决方案,赋能业务高效创新。
1、售前工作:重点负责大规模智算中心项目的需求分析、整体规划、方案设计、招投标等工作,协同内部部门与外部生态伙伴等资源,在方案规划、售前、交付等关键里程碑节点联合攻坚,保障项目成功; 2、解决方案:作为智算领域的技术专家,与客户紧密合作,深入了解其业务需求和技术挑战,提供客户从智算算力、数据、大模型等内容的整体规划到实施落地全过程技术交流及解决方案,并在落地过程中提供对内外部团队提供必要的技术指导,确保方案可落地、有竞争力。协助客户方案比选,通过POC演示和功能、性能测试验证技术优势;; 3、行业识别:负责支持市场洞察、竞争分析、行业打法策略分析与制定,支撑智算行业机会点识别、行业整体业务规划和策略落地; 4、外部影响:负责开展面向政府、实验室、运营商、算力合作单位、生态合作伙伴的培训与市场宣贯活动。