logo of tencent

腾讯数据中心AI网络方向工程师

社招全职TEG技术地点:北京状态:招聘

任职要求


1.教育背景:硕士及以上学历,计算机、通信、电子工程、高性能计算等相关专业;
2.核心技能(有以下经验者优先):熟悉CUDA(CUDA graph, kernel, stream, PTX ISA)开发流程;掌握Cuda Core/Tensor Core的混合精度计算原理,熟悉FP16/FP32/TF32等的运算优化方法;熟悉 G…
登录查看完整任职要求
微信扫码,1秒登录

工作职责


1.​GPU集群通信架构设计与优化:负责数据中心AI场景下GPU集群通信架构的设计与开发,优化多卡/多机通信性能,提升分布式训练效率;研究并实现GPU与网络设备(如交换机、RDMA网卡)的协同工作,解决通信延迟、带宽瓶颈等关键问题;
2.通信库与驱动开发:开发高性能GPU通信库(NCCL/DeepEP/NVsharemem 等),适配主流AI框架(TensorFlow/PyTorch),支持大规模集群通信需求;
3.GPU通信性能调优:分析通信性能瓶颈(硬件/软件层面),通过算法优化、代码重构或硬件选型提升整体吞吐量;与硬件团队协作,验证GPU新架构的通信能力,提供技术反馈与改进建议;
4.生态兼容与标准化:参与制定GPU通信协议标准,推动异构计算生态的互联互通。
包括英文材料
学历+
CUDA+
还有更多 •••
相关职位

logo of tencent
社招TEG技术

1.​GPU集群通信架构设计与优化:负责数据中心AI场景下GPU集群通信架构的设计与开发,优化多卡/多机通信性能,提升分布式训练效率;研究并实现GPU与网络设备(如交换机、RDMA网卡)的协同工作,解决通信延迟、带宽瓶颈等关键问题; 2.通信库与驱动开发:开发高性能GPU通信库(NCCL/DeepEP/NVsharemem 等),适配主流AI框架(TensorFlow/PyTorch),支持大规模集群通信需求; 3.GPU通信性能调优:分析通信性能瓶颈(硬件/软件层面),通过算法优化、代码重构或硬件选型提升整体吞吐量;与硬件团队协作,验证GPU新架构的通信能力,提供技术反馈与改进建议; 4.生态兼容与标准化:参与制定GPU通信协议标准,推动异构计算生态的互联互通。

更新于 2025-06-11深圳
logo of netease
社招5年以上网易云音乐

1. 负责云音乐微服务、可观测性和存储相关中间件的设计与研发工作; 2. 从用户视角解决业务在使用过程中遇到的各种疑难问题,能够挖掘业务实际需求给出中间件的最佳实践与演进方案; 3. 以产品化思维完善中间件相关设计,打造稳定、易用的微服务与中间件解决方案,赋能业务高效创新。

更新于 2025-07-17杭州
logo of aliyun
社招5年以上云智能行业解决方

1、售前工作:重点负责大规模智算中心项目的需求分析、整体规划、方案设计、招投标等工作,协同内部部门与外部生态伙伴等资源,在方案规划、售前、交付等关键里程碑节点联合攻坚,保障项目成功; 2、解决方案:作为智算领域的技术专家,与客户紧密合作,深入了解其业务需求和技术挑战,提供客户从智算算力、数据、大模型等内容的整体规划到实施落地全过程技术交流及解决方案,并在落地过程中提供对内外部团队提供必要的技术指导,确保方案可落地、有竞争力。协助客户方案比选,通过POC演示和功能、性能测试验证技术优势;; 3、行业识别:负责支持市场洞察、竞争分析、行业打法策略分析与制定,支撑智算行业机会点识别、行业整体业务规划和策略落地; 4、外部影响:负责开展面向政府、实验室、运营商、算力合作单位、生态合作伙伴的培训与市场宣贯活动。

更新于 2025-07-01杭州
logo of baidu
社招5年以上ACG

-负责混合云、算力中心建设方案设计,分析交付技术难点并攻克解决,保障项目交付闭环 -负责CPU/GPU上云方案设计,业务、模型、数据上云迁移,为客户提供端到端的上云服务,保障上云方案和实施的可落地性 -负责大模型、智算运营期间的客户需求对接,任务拆解,方案设计并推动生态完成agent开发,SFT优化等 -与其他技术团队合作,推进方案标准化,从而提升产品交付中的稳定性、效率等,交付后的产品可用性、可运维性等 -能充分利用生态化伙伴,降低项目实施成本,提升交付效率 -充分以客户视角理解客户需求,为客户提供简单可依赖的技术服务

更新于 2025-03-06上海