logo of kuaishou

快手大模型网络研发工程师

社招全职D13917地点:北京状态:招聘

任职要求


1、精通计算机网络和网络编程;
2、精通至少一门主流编程语言,比如C/C++, Python, Go等;
3、熟悉当前高性能网络和系统领域的最新进展,包括RDMA,拥塞控制,AI网络优化等技术;
4、对AI网络故障定位和性能优化有经验者优先;
5、有高性能通信框架(如NCCL,MPI,NVSHM)开发经验者优先;
6、有同领域相关从业经验者优先。

工作职责


1、负责高性能AI通信框架,网络协议栈以及端网应用协同优化等核心技术的研发,满足训练高吞吐以及推理低延迟的要求;
2、支持大规模AI场景的高速网络平台系统研发,包括故障定位和性能分析等。
包括英文材料
网络编程+
C+
C+++
Python+
Go+
相关职位

logo of bytedance
社招A163886

1、高速网络技术的设计和研发,满足AI/大模型业务在训练、推理、存储等多个场景对网络的需求; 2、支持大规模AI场景的高速网络平台系统研发,包括故障定位和性能分析等; 3、高性能AI通信框架,网络协议栈以及端网应用协同优化等核心技术的研发,在支持业务规模化扩展的同时,保证网络的高可靠性和高性能; 4、通过技术创新推动AI网络技术的持续演进,打造适合大规模AI场景的超低时延高速互联技术。

更新于 2024-05-13
logo of tencent
社招5年以上腾讯云-网络技术

1.负责计算集群的高性能RDMA网络系统软件开发和建设工作,构建业界领先的集群高性能RDMA网络性能和稳定性; 2.负责业界大模型训练的主流加速框架(如DeepSpeed、Megatron-LM)与云平台底层技术特点和优势结合,通过自研高性能RDMA网络技术进行持续优化; 3.跟踪业界最新AI基础设施和互联网络通信技术建设情况,包括scale up&out网络,持续打造自研产品竞争力。

更新于 2025-07-29
logo of tencent
社招5年以上CSIG技术

1.负责计算集群的高性能RDMA网络系统软件开发和建设工作,构建业界领先的集群高性能RDMA网络性能和稳定性; 2.负责业界大模型训练的主流加速框架(如DeepSpeed、Megatron-LM)与云平台底层技术特点和优势结合,通过自研高性能RDMA网络技术进行持续优化; 3.跟踪业界最新AI基础设施和互联网络通信技术建设情况,包括scale up&out网络,持续打造自研产品竞争力。

更新于 2025-05-26
logo of tencent
社招3年以上TEG技术

1.通信算子开发:设计和实现大模型训练/推理场景下的高效集合通信算子(AllReduce、AllGather、ReduceScatter、AllToAll等); 2.通信计算融合:设计通信与计算的overlap策略,实现计算通信并行,提升大模型整体训练/推理性能; 3.通信性能调优:针对不同硬件平台(GPU、NPU等)进行算子性能分析和优化,解决性能瓶颈问题; 4.参与AI通信库整体架构设计,制定技术方案和开发规范。

更新于 2025-06-05