字节跳动计算后端开发工程师-算力与AI基础设施
任职要求
1、2026届获得本科及以上学历,计算机、软件工程等相关专业优先; 2、热爱计算机科学和互联网技术,擅长至少一门编程语言,包括但不仅限于:Java、C、C++、PHP、Python、Golang等; 3、掌握扎…
工作职责
团队介绍:字节跳动云基础设施部门,通过云技术管理着百万量级的服务器构成的超大数据中心。我们通过深度优化千万级容器实例与算力优化,搭建EB级数据存储治理体系,探索新一代搜索型数据库与大规模AI集群下的高速网络通信,我们积极拥抱开源和创新的软硬件架构,致力于构建业界领先、稳定、高可用的面向LLM的AI云原生的基础设施架构与产品矩阵,为整个公司的业务和客户发展保驾护航。 1、参与字节跳动计算、存储、网络、云原生、基础技术、平台架构、字节云等基础设施和云基础产品的构建和优化; 2、参与基础设施和云基础产品的可用性、稳定性保障。

【我们提供】 1. 参与商汤自研智算云平台的底层核心研发,直接支撑大模型训练与AI基础设施建设; 2. 面对百亿参数级模型和超大规模集群的技术挑战,积累独特的工程经验; 3. 优秀的工程文化与导师机制,快速成长为系统架构师或平台负责人; 4. 行业内具竞争力的薪酬与晋升发展通道。 【岗位关键词】 IaaS / 云计算 / 分布式系统 / 存储 / 网络 / 容器 / Kubernetes / Ceph / SDN / RDMA / DPDK / eBPF / OpenStack / 智算云 / AI基础设施 【岗位职责】 作为商汤科技智算云核心基础设施团队成员,您将参与构建和优化支撑大规模AI训练与推理的IaaS底层平台,打造高性能、高可靠的云计算基础能力。主要工作包括: 一、计算方向: 1. 负责虚拟化/容器化计算资源调度系统的设计与开发(KVM、Docker、Kubernetes、OpenStack等)。 2. 优化GPU/CPU混合集群的资源利用率、任务调度和性能隔离机制。 二、存储方向: 1. 参与高性能分布式存储系统(Ceph、HDFS、NVMe over Fabrics等)的研发与优化。 2. 负责对象存储、块存储的性能调优与稳定性保障。 三、网络方向: 1. 设计并开发高性能虚拟网络系统,支持大规模AI训练与推理流量场景。 2. 参与SDN、RDMA、DPDK、eBPF 等前沿网络技术的研发与落地。 3. 在物理网络与 Fabric 层,通过工程化与自动化方式支撑云网络平台能力。 持续推进系统性能优化与架构演进,支撑智算中心规模化运营。

【我们提供】 1. 参与商汤自研智算云平台的底层核心研发,直接支撑大模型训练与AI基础设施建设; 2. 面对百亿参数级模型和超大规模集群的技术挑战,积累独特的工程经验; 3. 优秀的工程文化与导师机制,快速成长为系统架构师或平台负责人; 4. 行业内具竞争力的薪酬与晋升发展通道。 【岗位关键词】 IaaS / 云计算 / 分布式系统 / 存储 / 网络 / 容器 / Kubernetes / Ceph / RDMA / eBPF / OpenStack / 智算云 / AI基础设施 【岗位职责】 作为商汤科技智算云核心基础设施团队成员,您将参与构建和优化支撑大规模AI训练与推理的IaaS底层平台,打造高性能、高可靠的云计算基础能力。主要工作包括: 一、计算方向: 1. 负责虚拟化/容器化计算资源调度系统的设计与开发(KVM、Docker、Kubernetes、OpenStack等)。 2. 优化GPU/CPU混合集群的资源利用率、任务调度和性能隔离机制。 二、存储方向: 1. 参与高性能分布式存储系统(Ceph、HDFS、NVMe over Fabrics等)的研发与优化。 2. 负责对象存储、块存储的性能调优与稳定性保障。 三、网络方向: 1. 设计并开发高性能虚拟网络系统,支持大规模AI训练与推理流量场景。 2. 参与SDN、RDMA、DPDK、eBPF 等前沿网络技术的研发与落地。 持续推进系统性能优化与架构演进,支撑智算中心规模化运营。
1、BI平台技术架构设计与攻坚 -主导构建高性能、高可用的游戏行业BI平台,设计分布式数据存储、计算引擎、可视化服务等核心模块技术架构; -主导技术选型与迭代,包括OLAP引擎(ClickHouse/Doris)、计算框架(Flink/Spark)、前端可视化框架等关键技术组件。 2、数据服务化与性能优化 -构建统一数据服务层,封装复杂查询逻辑为标准化API,支持自助分析、报表订阅等场景; -建立全链路监控体系,优化数据从采集、加工到服务的端到端性能; -设计智能预计算模型,针对高频查询场景自动生成物化视图,提升查询效率; 3、 技术团队管理与工程效能提升 -领导数据平台研发团队(含数据开发、后端、前端工程师),制定技术路线图并推动落地; -建立工程师能力培养体系,主导Code Review、技术分享及复杂问题攻关(如分布式事务一致性保障); -推动研发流程标准化,不断s实现需求交付周期缩短; 4、业务协同与技术产品化 -深入理解游戏运营需求(如活动效果实时监控、用户流失归因),将业务场景抽象为通用技术解决方案; -探索AI与BI融合场景,主导智能SQL生成、自然语言查询等技术预研与落地。