字节跳动计算后端开发工程师-算力与AI基础设施
任职要求
1、2026届获得本科及以上学历,计算机、软件工程等相关专业优先; 2、热爱计算机科学和互联网技术,擅长至少一门编程语言,包括但不仅限于:Java、C、C++、PHP、Python、Golang等; 3、掌握扎…
工作职责
团队介绍:字节跳动云基础设施部门,通过云技术管理着百万量级的服务器构成的超大数据中心。我们通过深度优化千万级容器实例与算力优化,搭建EB级数据存储治理体系,探索新一代搜索型数据库与大规模AI集群下的高速网络通信,我们积极拥抱开源和创新的软硬件架构,致力于构建业界领先、稳定、高可用的面向LLM的AI云原生的基础设施架构与产品矩阵,为整个公司的业务和客户发展保驾护航。 1、参与字节跳动计算、存储、网络、云原生、基础技术、平台架构、字节云等基础设施和云基础产品的构建和优化; 2、参与基础设施和云基础产品的可用性、稳定性保障。

【我们提供】 1. 参与商汤自研智算云平台的底层核心研发,直接支撑大模型训练与AI基础设施建设; 2. 面对百亿参数级模型和超大规模集群的技术挑战,积累独特的工程经验; 3. 优秀的工程文化与导师机制,快速成长为系统架构师或平台负责人; 4. 行业内具竞争力的薪酬与晋升发展通道。 【岗位关键词】 IaaS / 云计算 / 分布式系统 / 存储 / 网络 / 容器 / Kubernetes / Ceph / RDMA / eBPF / OpenStack / 智算云 / AI基础设施 【岗位职责】 作为商汤科技智算云核心基础设施团队成员,您将参与构建和优化支撑大规模AI训练与推理的IaaS底层平台,打造高性能、高可靠的云计算基础能力。主要工作包括: 一、计算方向: 1. 负责虚拟化/容器化计算资源调度系统的设计与开发(KVM、Docker、Kubernetes、OpenStack等)。 2. 优化GPU/CPU混合集群的资源利用率、任务调度和性能隔离机制。 二、存储方向: 1. 参与高性能分布式存储系统(Ceph、HDFS、NVMe over Fabrics等)的研发与优化。 2. 负责对象存储、块存储的性能调优与稳定性保障。 三、网络方向: 1. 设计并开发高性能虚拟网络系统,支持大规模AI训练与推理流量场景。 2. 参与SDN、RDMA、DPDK、eBPF 等前沿网络技术的研发与落地。 持续推进系统性能优化与架构演进,支撑智算中心规模化运营。

1、负责无人机业务AI训练数据的标注流程、质量校验与效率优化。 2、协助搭建与维护用于无人机模型开发的AI算力平台,进行资源监控、调度优化,保障模型训练任务的高效稳定执行。 3、参与已上线无人机AI产品的后端维护、故障排查、模型更新与版本发布,提供必要的技术支持。 4、配合算法与产品团队,进行产品开发需求的技术可行性分析、实现方案设计及相关开发工作。 5、跟踪AI与无人机领域的技术动态,参与内部技术分享,为产品持续优化提供建议。
1. 负责自研芯片AI编译器方案设计及开发实现(侧重点为高能效比与加速器的高利用率); 2. 负责开发编译器后端优化Pass,如指令调度、内存分配等,最大化发挥NPU算力; 3. 负责开发编译器性能调优工具链,支持模型推理效率分析和自动化优化。