字节跳动服务器硬件系统架构师-智能计算
任职要求
1、有服务器产品架构设计成功经验,在服务器硬件、运维方面有深厚的技术积累,深入理解计算机体系结构,精通CPU、GPU服务器硬件系统架构;
2、在GPU、CPU、内存、SSD、网卡等部件的应用和设计原理上有成功的实践经验;
3、深入数据中心基础设施、集群网络、…工作职责
1、负责字节跳动服务器产品硬件架构设计,确保跨产品、跨代次硬件架构的一致性、系统性; 2、主导服务器技术选型,负责制定和更新服务器设备级架构路标,确保满足业务需求和技术先进性,对产品架构的领先性、关键技术准备节奏、可实施性负责; 3、研究和跟进服务器行业的最新技术,和业务团队、操作系统团队紧密配合,实现硬件方案创新,提升性能、降低成本,并确保系统的高可用性和高效运行; 4、与硬件研发、网络、IDC规划团队紧密协作,确定硬件架构总体设计方案,确保服务器硬件系统在TCO、性能、易部署、易运维方向竞争力领先。
-负责行业领先的超大规模云基础设施网络系统和计算集群的规划设计、工程建设与性能调优 -管理覆盖全球的网络、服务器集群,确保安全、稳定、高效运行 -建立新一代智能化运营体系,构建海量运营数据分析及智能运维平台 -推动超大网络系统架构演进、性能优化及关键组件设计研发
-负责行业领先的超大规模公/私有云基础设施网络系统和计算集群的网络建设与运维工作 -负责管理覆盖全球的网络、服务器集群,确保安全、稳定、高效运行 -参与百度国内外整体机房建设、在线系统和各类产品架构设计 -参与建立新一代智能化运营体系,构建海量运营数据分析及智能运维平台
1.超大规模LLM性能工程: 主导并规划千亿参数级大模型的极致性能优化技术路线。负责 PagedAttention、连续批处理等核心调度策略的深度定制与生产级架构设计,负责 vLLM/TensorRT-LLM 等主流推理框架的内核级优化与落地; 2.低比特与稀疏模型优化: 牵头 INT4/FP8/AWQ 等前沿低比特量化技术的工业级系统化落地,平衡精度与计算效率。并设计面向 MoE 模型的分布式调度、路由、显存管理及跨卡通信的优化方案; 3.统一与多模态架构: 定义并设计一套具备长期扩展性的统一 AI 推理引擎架构,以支撑自回归生成任务,并前瞻性地解决多模态大模型(如视觉-语言模型)的协同推理部署挑战; 4.异构算力与国产化适配: 主导推理引擎在国产AI芯片(如昇腾、海光、天数等)平台上的战略级移植、生态适配与性能优化。对 HCCL/NCCL 等通信原语进行深度优化和定制,实现跨异构架构的算力自主可控; 5.核心算子优化与指令架构创新 (Enhanced Focus):深度介入 GPU/NPU 硬件底层,主导设计和实现LLM特有高性能算子。 重点包括:高性能Attention Kernel、矩阵乘法(GEMM)的深度定制与融合、KV Cache读写优化等关键算子; 6.具备深入理解和利用硬件指令集架构(ISA)和微架构(Microarchitecture)的能力, 通过 CUDA/Triton 或国产芯片底层编程语言,进行SIMD/SIMT指令优化、指令级并行(ILP)及寄存器重用等,将LLM推理性能推向硬件理论极限。
【业务介绍】 作为公司统一的模型训练引擎团队,支撑公司内所有搜推广类业务的训练工程侧工作,包括模型训练、参数服务器、特征样本流水线等,通过引擎能力的持续建设结合多元异构算力为业务提供高效、灵活、稳定的搜广推模型服务。 为公司核心的搜广推业务提供关键的模型训练引擎支撑,解决超大规模稀疏特征训练的核心问题,不断挖掘异构硬件算力,为公司搜广推业务增长提供保障,并获得快速的成长与提升。 【岗位职责】 1、负责小红书搜广推业务线的机器学习训练框架的研发与迭代,核心支持公司所有相关业务场景; 2、深入参与分布式训练、自动并行化、参数服务器、特征样本流水线等系统底层功能的创新设计与优化,实现软硬件协同的极致训练效率; 3、跨团队合作,与公司算法部门深度协同,针对关键项目开展算法与系统的联合优化,推动解决实际业务挑战; 4、推动自动化扩展、智能资源调度、跨架构设备兼容(NV GPU、GPGPU、XPU等)、AI系统可观测性等先进技术在公司模型训练平台落地; 5、跟踪并推动AI系统领域的最新技术趋势(如生成式推荐、AI编译优化、RDMA/NCCL通信计算并发等),持续保持平台业界领先优势。