logo of bytedance

字节跳动网络开发工程师-算力与AI基础设施

校招全职A13392地点:北京状态:招聘

任职要求


1、2026届获得本科及以上学历,计算机、软件工程等相关专业;
2、热爱互联网技术,精通至少一门编程语言,包括但不仅限于:JavaCC+
登录查看完整任职要求
微信扫码,1秒登录

工作职责


团队介绍:字节跳动云基础设施部门,通过云技术管理着百万量级的服务器构成的超大数据中心。我们通过深度优化千万级容器实例与算力优化,搭建EB级数据存储治理体系,探索新一代搜索型数据库与大规模AI集群下的高速网络通信,我们积极拥抱开源和创新的软硬件架构,致力于构建业界领先、稳定、高可用的面向LLM的AI云原生的基础设施架构与产品矩阵,为整个公司的业务和客户发展保驾护航。

1、负责字节跳动全系产品(包括但不限于抖音、今日头条等)的网络基础设施和网络基础平台的研发工作;
2、研发全链路网络性能测量、分析、定位和优化,基于意图的网络自动化,网络仿真、推演和验证,海量网络数据实时和非实时的处理,以支撑超大规模的数据中心网络;
3、云网络产品研发,基于SDN、NFV和软硬件一体化等技术,提供高性能、大规模的火山引擎云网络产品;
4、虚拟网络的出口网关和跨域网关的研发,以及基于DPDK和可编程交换芯片的软件研发,提供高性能的网络虚拟化网关产品;
5、RDMA相关高速网络的传输协议、流控算法、通信库、端网融合等研究和研发工作,支撑AI计算的高性能网络通信;
6、网络相关网元的设计研发,包括自研交换机、路由器等,以适应大规模数据中心的组网和互联;研发四七层负载均衡、通用网络库、加解密技术、DNS调度、QUIC等公网传输协议,提供端到端的流量接入服务。
包括英文材料
学历+
Java+
C+
还有更多 •••
相关职位

logo of bytedance
校招A256029

团队介绍:字节跳动云基础设施部门,通过云技术管理着百万量级的服务器构成的超大数据中心。我们通过深度优化千万级容器实例与算力优化,搭建EB级数据存储治理体系,探索新一代搜索型数据库与大规模AI集群下的高速网络通信,我们积极拥抱开源和创新的软硬件架构,致力于构建业界领先、稳定、高可用的面向LLM的AI云原生的基础设施架构与产品矩阵,为整个公司的业务和客户发展保驾护航。 1、参与字节跳动计算、存储、网络、云原生、基础技术、平台架构、字节云等基础设施和云基础产品的构建和优化; 2、参与基础设施和云基础产品的可用性、稳定性保障。

更新于 2025-07-29北京
logo of aliyun
社招3年以上云智能集团

阿里云正在构建面向 AI 大模型训练与推理的下一代高性能网络基础设施,以支撑全球企业对极致算力与低延迟网络的需求。我们正在寻找一位在 RDMA(Remote Direct Memory Access) 技术领域有深厚经验的 DevOps 工程师,负责设计、部署和优化基于 RDMA 的 AI 训练集群网络架构,推动高性能网络技术在分布式 AI 场景的落地与创新。 核心职责: 1)AI 训练集群网络架构设计与运维 部署、运维和维护基于 RoCE/InfiniBand 的 RDMA 网络架构,支撑大规模 AI 训练集群(如万卡级 GPU 集群); 优化分布式 AI 工作负载(如 NCCL、MPI)的网络性能,降低通信延迟,提升吞吐效率。 2)网络性能调优与问题解决 解决分布式训练中的复杂网络问题(如 NCCL/MPI 通信瓶颈、带宽利用率低等); 利用自动化工具进行网络资源分配、监控、诊断及性能分析(如延迟/吞吐量分析、端到端链路追踪)。 3)自动化与 CI/CD 实践 构建网络基础设施的 CI/CD 流水线(Infrastructure as Code),实现网络配置的自动化部署与版本管理; 开发自动化脚本与工具,提升网络运维效率与稳定性。 4)全生命周期网络管理 管理端到端网络生命周期(部署、配置、监控、升级),确保网络服务的高可用性与可扩展性; 设计并实施网络监控与告警体系,快速定位并修复潜在故障。 5)跨团队协作与技术落地 与 AI/ML 工程师紧密合作,排查训练/推理流水线中的网络瓶颈,提供针对性优化方案; 深度参与 AI 框架(如 TensorFlow、PyTorch)与底层网络基础设施的适配与性能调优。

更新于 2025-12-29北京|杭州
logo of aliyun
社招5年以上云智能产品解决方

1、作为产品解决方案架构师,深入理解灵骏及异构产品所负责的高性能AI智算集群的技术原理、架构和使用场景,能够根据企业级客户需求和产品能力,规划设计合理的灵骏产品解决方案,推动和实现产品的商业化落地。 2、具备良好的架构思维能力,能够从稳定性、高性能、易用性、可用性、可运维性等方面综合考虑,结合云计算平台产品特点,敏锐捕捉市场趋势,分析竞对产品及市场策略,为产品的设计、实现、改进不断提出建设性的想法和建议,反哺产品能力建设,不断提升灵骏及异构产品的市场竞争力和市场份额。 3、与前线架构师/BTE销售紧密合作,主动了解客户当前在产品方案遇到的困难和需求,帮助客户解决技术问题,寻找新的业务突破点。推广产品方案并能够影响客户的基础设施、工程、算法等不同团队,用产品技术推动业务扩展。 4、分析云计算技术发展趋势/市场竟争格局,挖掘行业数据/客户商机,建立可复制行业解决方案,与产品内部的产品经理、资源及经营团队、研发等团队紧密配合,推动营收增长。

更新于 2025-06-18北京|杭州
logo of aliyun
社招5年以上云智能行业解决方

1、深入理解客户业务需求,帮助客户选择适合其业务场景的技术路径和产品组合,利用AI技术知识、架构方法、咨询技能来影响客户技术决策 2、与客户合作进行模型训练、推理和模型应用等POC,含展示功能、调整模型、优化模型性能、测试分析、Agent搭建、模型调用等内容 3、依据客户需求和技术研判,推动产研部门持续优化产品,助力提升产品竞争力,同时沉淀最佳实践,以及脚本、模板、参考架构等可复用的技术资产 4、持续跟踪行业动态和技术趋势,并与产品团队协作,打造创新的人工智能(大模型、智算、一体机等)解决方案 5、支持市场活动,作为领域专家参与市场洞察、行业标准、市场排名报告、白皮书撰写等活动,并在行业峰会、技术沙龙等市场活动中进行技术传播和分享

更新于 2025-06-16北京|杭州|上海