logo of tencent

腾讯高性能网络通信库研发工程师

社招全职3年以上TEG技术地点:深圳状态:招聘

任职要求


1.计算机/网络通信/软件工程或相关专业,硕士及以上学历,3年以上网络通信相关工作经验;
2.精通C++/CUDA编程,熟悉Python开发;
3.具备分布式训练/推理的实践经验,理解数据并行、模型并行等策略,了解大模型架构(TransformerGPT、LLaMA等)和推理优化技术;
4.具备良好的问题分析和解决能力,对前沿技术有强烈的学习兴趣和探索精神;责任心强,能够承受一定工作压力,具备良好的团队沟通和协作能力;
5.深入理解GPU架构和CUDA编程模型、有kernel优化经验者优先;
6.熟悉MPI、NCCL等通信库的原理者优先,具备RDMA verbs编程经验者优先。

工作职责


1.通信算子开发:设计和实现大模型训练/推理场景下的高效集合通信算子(AllReduce、AllGather、ReduceScatter、AllToAll等);
2.通信计算融合:设计通信与计算的overlap策略,实现计算通信并行,提升大模型整体训练/推理性能;
3.通信性能调优:针对不同硬件平台(GPU、NPU等)进行算子性能分析和优化,解决性能瓶颈问题;
4.参与AI通信库整体架构设计,制定技术方案和开发规范。
包括英文材料
学历+
C+++
CUDA+
Python+
大模型+
Transformer+
GPT+
内核+
相关职位

logo of tencent
社招3年以上TEG技术

1.通信算子开发:设计和实现大模型训练/推理场景下的高效集合通信算子(AllReduce、AllGather、ReduceScatter、AllToAll等); 2.通信计算融合:设计通信与计算的overlap策略,实现计算通信并行,提升大模型整体训练/推理性能; 3.通信性能调优:针对不同硬件平台(GPU、NPU等)进行算子性能分析和优化,解决性能瓶颈问题; 4.参与AI通信库整体架构设计,制定技术方案和开发规范。

更新于 2025-09-05
logo of baidu
社招ACG

-负责百度AI计算集群高性能通信库研发工作 -负责百度AI计算集群训推框架通信优化工作 -负责百度AI计算集群通信性能与可用性诊断工作 -负责百度AI计算集群与通信关联的其他软件研发与维护工作

更新于 2025-04-07
logo of baidu
实习ACG

-负责百度AI计算集群网络性能相关的诊断与优化 -负责百度AI计算集群通信库研发与运维部署 -负责百度AI计算中训练、推理依赖的通信加速 -负责百度AI计算集群与通信关联的其他软件研发工作

更新于 2025-04-07
logo of kuaishou
社招3年以上D7216

研发构建从通信库、协议栈、网卡到交换机、网关等全领域场景网络产品与服务,提供快手超大规模数据中心网络的端到端的高性能低成本的整体解决方案,为业务发展提供技术支撑和驱动能力,候选人可从事如下子领域方向工作: 1、负责白盒交换机系统研发; 2、负责网关系统研发,包括L4层负载均衡网关、VxLan网关、流量调度网关、安全网关等; 3、负责虚拟(容器)网络系统研发; 4、负责高性能网络(集合通信库、RDMA协议栈、用户态网络协议栈)系统研发。

更新于 2025-02-14