字节跳动系统工程实习生-算力基础设施
任职要求
1、2026届本科及以上学历在读,计算机相关专业优先; 2、了解Unix环境编程,Linux C/C++开发经验; 3、了解掌握…
工作职责
ByteIntern:面向2026届毕业生(2025年9月-2026年8月期间毕业),为符合岗位要求的同学提供转正机会。 团队介绍:字节跳动系统部,负责字节跳动从芯片到服务器、操作系统、网络、CDN 、数据中心等基础设施的研发、设计、采购、交付与运营管理,为包含抖音、头条、火山引擎等全球业务提供高效、稳定、具备可扩展性的基础设施。部门当前业务开展包括不限于:数据中心设计建设、芯片研发、服务器研发、网络工程研发、火山引擎边缘云业务、高性能智能硬件研发、IDC资源智能交付与运维、硬件基础设施智能监控与预警、操作系统与内核、虚拟化技术、编译工具链、供应链管理等众多基础设施相关方向。 1、系统工具开发和整合,系统平台开发; 2、对现有的平台和工具,业务的瓶颈进行优化和重构; 3、基于海量数据进行分析,建模和预测; 4、系统新技术的调研和孵化。
包含GPU、网络、大模型框架等细分方向。 1、针对业务需求,解决算力瓶颈、通信延迟、分布式系统扩展性等问题; 2、协同算法、硬件及运维团队,构建高效、稳定的计算基础设施。 1)GPU方向:研究GPU集群的调度策略,优化资源利用率。探索混合精度计算、模型量化等GPU加速技术; 2)网络方向:设计低延迟、高吞吐的分布式网络架构(如InfiniBand/RoCE/DPU)。优化MPI、NCCL等通信库性能,解决大规模集群中的网络拥塞问题; 3)大模型工程框架方向:开发或优化大模型训练框架(如PyTorch/TensorFlow/DeepSpeed/Megatron-LM),设计分布式训练策略(模型并行、流水线并行、混合并行),提升千亿级参数模型的训练效率。研究训练加速技术(梯度压缩、显存优化、动态计算图调度)。
包含GPU、网络、大模型框架等细分方向。 1、针对业务需求,解决算力瓶颈、通信延迟、分布式系统扩展性等问题; 2、协同算法、硬件及运维团队,构建高效、稳定的计算基础设施。 1)GPU方向:研究GPU集群的调度策略,优化资源利用率。探索混合精度计算、模型量化等GPU加速技术; 2)网络方向:设计低延迟、高吞吐的分布式网络架构(如InfiniBand/RoCE/DPU)。优化MPI、NCCL等通信库性能,解决大规模集群中的网络拥塞问题; 3)大模型工程框架方向:开发或优化大模型训练框架(如PyTorch/TensorFlow/DeepSpeed/Megatron-LM),设计分布式训练策略(模型并行、流水线并行、混合并行),提升千亿级参数模型的训练效率。研究训练加速技术(梯度压缩、显存优化、动态计算图调度)。
包含GPU、网络、大模型框架等细分方向。 1、针对业务需求,解决算力瓶颈、通信延迟、分布式系统扩展性等问题; 2、协同算法、硬件及运维团队,构建高效、稳定的计算基础设施。 1)GPU方向:研究GPU集群的调度策略,优化资源利用率。探索混合精度计算、模型量化等GPU加速技术; 2)网络方向:设计低延迟、高吞吐的分布式网络架构(如InfiniBand/RoCE/DPU)。优化MPI、NCCL等通信库性能,解决大规模集群中的网络拥塞问题; 3)大模型工程框架方向:开发或优化大模型训练框架(如PyTorch/TensorFlow/DeepSpeed/Megatron-LM),设计分布式训练策略(模型并行、流水线并行、混合并行),提升千亿级参数模型的训练效率。研究训练加速技术(梯度压缩、显存优化、动态计算图调度)。