字节跳动网络开发工程师-算力与AI基础设施
任职要求
1、2026届获得本科及以上学历,计算机、软件工程等相关专业; 2、热爱互联网技术,精通至少一门编程语言,包括但不仅限于:Java、C、C+…
工作职责
团队介绍:字节跳动云基础设施部门,通过云技术管理着百万量级的服务器构成的超大数据中心。我们通过深度优化千万级容器实例与算力优化,搭建EB级数据存储治理体系,探索新一代搜索型数据库与大规模AI集群下的高速网络通信,我们积极拥抱开源和创新的软硬件架构,致力于构建业界领先、稳定、高可用的面向LLM的AI云原生的基础设施架构与产品矩阵,为整个公司的业务和客户发展保驾护航。 1、负责字节跳动全系产品(包括但不限于抖音、今日头条等)的网络基础设施和网络基础平台的研发工作; 2、研发全链路网络性能测量、分析、定位和优化,基于意图的网络自动化,网络仿真、推演和验证,海量网络数据实时和非实时的处理,以支撑超大规模的数据中心网络; 3、云网络产品研发,基于SDN、NFV和软硬件一体化等技术,提供高性能、大规模的火山引擎云网络产品; 4、虚拟网络的出口网关和跨域网关的研发,以及基于DPDK和可编程交换芯片的软件研发,提供高性能的网络虚拟化网关产品; 5、RDMA相关高速网络的传输协议、流控算法、通信库、端网融合等研究和研发工作,支撑AI计算的高性能网络通信; 6、网络相关网元的设计研发,包括自研交换机、路由器等,以适应大规模数据中心的组网和互联;研发四七层负载均衡、通用网络库、加解密技术、DNS调度、QUIC等公网传输协议,提供端到端的流量接入服务。
团队介绍:字节跳动云基础设施部门,通过云技术管理着百万量级的服务器构成的超大数据中心。我们通过深度优化千万级容器实例与算力优化,搭建EB级数据存储治理体系,探索新一代搜索型数据库与大规模AI集群下的高速网络通信,我们积极拥抱开源和创新的软硬件架构,致力于构建业界领先、稳定、高可用的面向LLM的AI云原生的基础设施架构与产品矩阵,为整个公司的业务和客户发展保驾护航。 1、参与字节跳动计算、存储、网络、云原生、基础技术、平台架构、字节云等基础设施和云基础产品的构建和优化; 2、参与基础设施和云基础产品的可用性、稳定性保障。
团队介绍:字节跳动数据中心与供应链部门,负责字节跳动从芯片到服务器全栈算力基础设施的研发、调度与供给、管理与应用(如数据中心建设、内核操作系统、网络CDN、高性能服务器、编译工具链等),支撑字节跳动全系业务运行的核心力量,为抖音、今日头条、飞书、火山引擎等各类产品提供全面、领先、稳定的百万量级大规模算力基础设施服务。 1、系统软件开发:参与BIOS、BMC固件、Linux内核及操作系统相关模块的开发,解决底层硬件兼容性以及功能扩展问题,实现软硬件一体化集成; 2、系统优化与维护:对BIOS、BMC固件、Linux内核及操作系统进行性能测试、分析、优化,定位并解决系统运行过程中的各类问题,保障系统高效稳定运行; 3、系统监控诊断:设计与实现系统监控诊断相关功能,开发监控工具或模块,实时监测BIOS、BMC固件、Linux内核及操作系统的运行状态,及时发现并预警潜在故障,协助排查和解决系统故障; 4、新技术探索与应用:关注系统软件领域最新技术动态,如人工智能在系统诊断中的应用、系统技术在AI基础设施中的应用等,结合公司业务需求,探索新技术在项目中的可行性,提出创新方案并实践验证。

【我们提供】 1. 参与商汤自研智算云平台的底层核心研发,直接支撑大模型训练与AI基础设施建设; 2. 面对百亿参数级模型和超大规模集群的技术挑战,积累独特的工程经验; 3. 优秀的工程文化与导师机制,快速成长为系统架构师或平台负责人; 4. 行业内具竞争力的薪酬与晋升发展通道。 【岗位关键词】 IaaS / 云计算 / 分布式系统 / 存储 / 网络 / 容器 / Kubernetes / Ceph / RDMA / eBPF / OpenStack / 智算云 / AI基础设施 【岗位职责】 作为商汤科技智算云核心基础设施团队成员,您将参与构建和优化支撑大规模AI训练与推理的IaaS底层平台,打造高性能、高可靠的云计算基础能力。主要工作包括: 一、计算方向: 1. 负责虚拟化/容器化计算资源调度系统的设计与开发(KVM、Docker、Kubernetes、OpenStack等)。 2. 优化GPU/CPU混合集群的资源利用率、任务调度和性能隔离机制。 二、存储方向: 1. 参与高性能分布式存储系统(Ceph、HDFS、NVMe over Fabrics等)的研发与优化。 2. 负责对象存储、块存储的性能调优与稳定性保障。 三、网络方向: 1. 设计并开发高性能虚拟网络系统,支持大规模AI训练与推理流量场景。 2. 参与SDN、RDMA、DPDK、eBPF 等前沿网络技术的研发与落地。 持续推进系统性能优化与架构演进,支撑智算中心规模化运营。
1、深入理解客户业务需求,帮助客户选择适合其业务场景的技术路径和产品组合,利用AI技术知识、架构方法、咨询技能来影响客户技术决策 2、与客户合作进行模型训练、推理和模型应用等POC,含展示功能、调整模型、优化模型性能、测试分析、Agent搭建、模型调用等内容 3、依据客户需求和技术研判,推动产研部门持续优化产品,助力提升产品竞争力,同时沉淀最佳实践,以及脚本、模板、参考架构等可复用的技术资产 4、持续跟踪行业动态和技术趋势,并与产品团队协作,打造创新的人工智能(大模型、智算、一体机等)解决方案 5、支持市场活动,作为领域专家参与市场洞察、行业标准、市场排名报告、白皮书撰写等活动,并在行业峰会、技术沙龙等市场活动中进行技术传播和分享