字节跳动网络开发工程师-算力与AI基础设施
任职要求
1、2026届获得本科及以上学历,计算机、软件工程等相关专业; 2、热爱互联网技术,精通至少一门编程语言,包括但不仅限于:Java、C、C+…
工作职责
团队介绍:字节跳动云基础设施部门,通过云技术管理着百万量级的服务器构成的超大数据中心。我们通过深度优化千万级容器实例与算力优化,搭建EB级数据存储治理体系,探索新一代搜索型数据库与大规模AI集群下的高速网络通信,我们积极拥抱开源和创新的软硬件架构,致力于构建业界领先、稳定、高可用的面向LLM的AI云原生的基础设施架构与产品矩阵,为整个公司的业务和客户发展保驾护航。 1、负责字节跳动全系产品(包括但不限于抖音、今日头条等)的网络基础设施和网络基础平台的研发工作; 2、研发全链路网络性能测量、分析、定位和优化,基于意图的网络自动化,网络仿真、推演和验证,海量网络数据实时和非实时的处理,以支撑超大规模的数据中心网络; 3、云网络产品研发,基于SDN、NFV和软硬件一体化等技术,提供高性能、大规模的火山引擎云网络产品; 4、虚拟网络的出口网关和跨域网关的研发,以及基于DPDK和可编程交换芯片的软件研发,提供高性能的网络虚拟化网关产品; 5、RDMA相关高速网络的传输协议、流控算法、通信库、端网融合等研究和研发工作,支撑AI计算的高性能网络通信; 6、网络相关网元的设计研发,包括自研交换机、路由器等,以适应大规模数据中心的组网和互联;研发四七层负载均衡、通用网络库、加解密技术、DNS调度、QUIC等公网传输协议,提供端到端的流量接入服务。
团队介绍:字节跳动云基础设施部门,通过云技术管理着百万量级的服务器构成的超大数据中心。我们通过深度优化千万级容器实例与算力优化,搭建EB级数据存储治理体系,探索新一代搜索型数据库与大规模AI集群下的高速网络通信,我们积极拥抱开源和创新的软硬件架构,致力于构建业界领先、稳定、高可用的面向LLM的AI云原生的基础设施架构与产品矩阵,为整个公司的业务和客户发展保驾护航。 1、参与字节跳动计算、存储、网络、云原生、基础技术、平台架构、字节云等基础设施和云基础产品的构建和优化; 2、参与基础设施和云基础产品的可用性、稳定性保障。
阿里云正在构建面向 AI 大模型训练与推理的下一代高性能网络基础设施,以支撑全球企业对极致算力与低延迟网络的需求。我们正在寻找一位在 RDMA(Remote Direct Memory Access) 技术领域有深厚经验的 DevOps 工程师,负责设计、部署和优化基于 RDMA 的 AI 训练集群网络架构,推动高性能网络技术在分布式 AI 场景的落地与创新。 核心职责: 1)AI 训练集群网络架构设计与运维 部署、运维和维护基于 RoCE/InfiniBand 的 RDMA 网络架构,支撑大规模 AI 训练集群(如万卡级 GPU 集群); 优化分布式 AI 工作负载(如 NCCL、MPI)的网络性能,降低通信延迟,提升吞吐效率。 2)网络性能调优与问题解决 解决分布式训练中的复杂网络问题(如 NCCL/MPI 通信瓶颈、带宽利用率低等); 利用自动化工具进行网络资源分配、监控、诊断及性能分析(如延迟/吞吐量分析、端到端链路追踪)。 3)自动化与 CI/CD 实践 构建网络基础设施的 CI/CD 流水线(Infrastructure as Code),实现网络配置的自动化部署与版本管理; 开发自动化脚本与工具,提升网络运维效率与稳定性。 4)全生命周期网络管理 管理端到端网络生命周期(部署、配置、监控、升级),确保网络服务的高可用性与可扩展性; 设计并实施网络监控与告警体系,快速定位并修复潜在故障。 5)跨团队协作与技术落地 与 AI/ML 工程师紧密合作,排查训练/推理流水线中的网络瓶颈,提供针对性优化方案; 深度参与 AI 框架(如 TensorFlow、PyTorch)与底层网络基础设施的适配与性能调优。
团队介绍:字节跳动数据中心与供应链部门,负责字节跳动从芯片到服务器全栈算力基础设施的研发、调度与供给、管理与应用(如数据中心建设、内核操作系统、网络CDN、高性能服务器、编译工具链等),支撑字节跳动全系业务运行的核心力量,为抖音、今日头条、飞书、火山引擎等各类产品提供全面、领先、稳定的百万量级大规模算力基础设施服务。 1、系统软件开发:参与BIOS、BMC固件、Linux内核及操作系统相关模块的开发,解决底层硬件兼容性以及功能扩展问题,实现软硬件一体化集成; 2、系统优化与维护:对BIOS、BMC固件、Linux内核及操作系统进行性能测试、分析、优化,定位并解决系统运行过程中的各类问题,保障系统高效稳定运行; 3、系统监控诊断:设计与实现系统监控诊断相关功能,开发监控工具或模块,实时监测BIOS、BMC固件、Linux内核及操作系统的运行状态,及时发现并预警潜在故障,协助排查和解决系统故障; 4、新技术探索与应用:关注系统软件领域最新技术动态,如人工智能在系统诊断中的应用、系统技术在AI基础设施中的应用等,结合公司业务需求,探索新技术在项目中的可行性,提出创新方案并实践验证。

【我们提供】 1. 参与商汤自研智算云平台的底层核心研发,直接支撑大模型训练与AI基础设施建设; 2. 面对百亿参数级模型和超大规模集群的技术挑战,积累独特的工程经验; 3. 优秀的工程文化与导师机制,快速成长为系统架构师或平台负责人; 4. 行业内具竞争力的薪酬与晋升发展通道。 【岗位关键词】 IaaS / 云计算 / 分布式系统 / 存储 / 网络 / 容器 / Kubernetes / Ceph / RDMA / eBPF / OpenStack / 智算云 / AI基础设施 【岗位职责】 作为商汤科技智算云核心基础设施团队成员,您将参与构建和优化支撑大规模AI训练与推理的IaaS底层平台,打造高性能、高可靠的云计算基础能力。主要工作包括: 一、计算方向: 1. 负责虚拟化/容器化计算资源调度系统的设计与开发(KVM、Docker、Kubernetes、OpenStack等)。 2. 优化GPU/CPU混合集群的资源利用率、任务调度和性能隔离机制。 二、存储方向: 1. 参与高性能分布式存储系统(Ceph、HDFS、NVMe over Fabrics等)的研发与优化。 2. 负责对象存储、块存储的性能调优与稳定性保障。 三、网络方向: 1. 设计并开发高性能虚拟网络系统,支持大规模AI训练与推理流量场景。 2. 参与SDN、RDMA、DPDK、eBPF 等前沿网络技术的研发与落地。 持续推进系统性能优化与架构演进,支撑智算中心规模化运营。