logo of bytedance

字节跳动GPU高性能通信研发工程师

社招全职A120261地点:上海状态:招聘

任职要求


1、本科及以上学历,计算机相关专业;
2、有CCL相关经验,了解常用机器学习框架及并行方法;
3、熟练使用C/C++Python编程语言;
4、了解GPU(NVIDIA、AMD或Intel)的基本工作原理,对GPU架构有一定的认知;
5、有RDMA,NVLink等高速传输协议经验者优先;
6、有CUDA编程经验者优先。

工作职责


字节DPU团队致力于构建字节跳动集团以及火山引擎公有云的计算基础设施底座,致力于下一代云计算领域底层软硬件技术(计算/网络/存储)的研发和探索,含下一代的软硬一体虚拟化 Hypervisor 底座、自研用户态网络协议栈、高速传输协议及应用、虚拟网络交换机、高性能存储栈等技术方向的生产开发与前沿探索。

1、探索大模型推理、训练中的CCL性能优化及其在性能分析及GPU故障检测中的应用;
2、探索DPU NIC+CCL实现CCL加速;
3、探索DPU下,GPU虚拟化及池化共享技术,提高GPU利用率。
包括英文材料
学历+
机器学习+
C+
C+++
Python+
CUDA+
相关职位

logo of tencent
社招3年以上TEG技术

1.通信算子开发:设计和实现大模型训练/推理场景下的高效集合通信算子(AllReduce、AllGather、ReduceScatter、AllToAll等); 2.通信计算融合:设计通信与计算的overlap策略,实现计算通信并行,提升大模型整体训练/推理性能; 3.通信性能调优:针对不同硬件平台(GPU、NPU等)进行算子性能分析和优化,解决性能瓶颈问题; 4.参与AI通信库整体架构设计,制定技术方案和开发规范。

更新于 2025-06-05
logo of tencent
社招3年以上TEG技术

1.通信算子开发:设计和实现大模型训练/推理场景下的高效集合通信算子(AllReduce、AllGather、ReduceScatter、AllToAll等); 2.通信计算融合:设计通信与计算的overlap策略,实现计算通信并行,提升大模型整体训练/推理性能; 3.通信性能调优:针对不同硬件平台(GPU、NPU等)进行算子性能分析和优化,解决性能瓶颈问题; 4.参与AI通信库整体架构设计,制定技术方案和开发规范。

更新于 2025-09-05
logo of tencent
社招2年以上CSIG技术

1.参与基于GPU的高性能计算(HPC)项目设计与开发,负责GPU芯片(NVIDIA,AMD等)的底层性能优化与调优; 2.针对大模型推理场景,优化和扩展vLLM、SGLang等框架的核心模块,提升计算效率与资源利用率; 3.深入分析GPU硬件架构特性(如Tensor Core、显存带宽、通信机制等),设计并实现高性能算子与算法; 4.探索前沿技术方向(如混合专家模型MOE、动态计算图编译优化、JIT等),推动AI工程化落地的效率提升。

更新于 2025-06-17
logo of weibo
社招新浪&微博

1.负责大规模稀疏模型的训练与推理过程的性能与效率优化,支持CPU/GPU 异构高性能模型工程大规模落地 2.设计与开发机器学习系统,包括数据读取,模型训练,参数存储,模型服务等,搭建上层应用与工作流等 3.协同算法业务团队优化模型效果与训练推理性能

更新于 2024-09-24