字节跳动服务器硬件系统架构师-智能计算
任职要求
1、有服务器产品架构设计成功经验,在服务器硬件、运维方面有深厚的技术积累,深入理解计算机体系结构,精通CPU、GPU服务器硬件系统架构;
2、在GPU、CPU、内存、SSD、网卡等部件的应用和设计原理上有成功的实践经验;
3、深入数据中心基础设施、集群网络、…工作职责
1、负责字节跳动服务器产品硬件架构设计,确保跨产品、跨代次硬件架构的一致性、系统性; 2、主导服务器技术选型,负责制定和更新服务器设备级架构路标,确保满足业务需求和技术先进性,对产品架构的领先性、关键技术准备节奏、可实施性负责; 3、研究和跟进服务器行业的最新技术,和业务团队、操作系统团队紧密配合,实现硬件方案创新,提升性能、降低成本,并确保系统的高可用性和高效运行; 4、与硬件研发、网络、IDC规划团队紧密协作,确定硬件架构总体设计方案,确保服务器硬件系统在TCO、性能、易部署、易运维方向竞争力领先。
1、技术规划 • 负责网络硬件产品技术规划,主导包括系统方案/架构/配置及工业化设计、硬件核心技术创新,并深入到供应商的研发端,审核、监督设计过程,提前管理设计的需求匹配性及质量风险 • 持续跟踪软硬件相关领域的技术发展趋势,深入业务场景规划和推动新技术的规划和落地 2、架构与解决方案设计 • 针对阿里大规模网络或服务器应用场景的需求分析,负责端到端的网络设备软硬件架构规划、服务器软硬件架构规划及整体产品解决方案(包含但不限于芯片,存储,计算,网络等),输出市场需求书MRD,产品需求书PRD,产品规格书等关键文档。 • 制定合理的产品生命周期规划,做从需求分析到EOL的全生命周期管理 • 及时跟踪业界动态,针对性进行相关竞品分析和信息收集,保障解决方案的先进性 3、技术研发 • 分析业务整体逻辑/业务软硬件实现等,结合系统软硬件能力提出针对性的解决方案/研发项目。 * 主持网络硬件产品的设计开发,负责硬件设计包括硬件规格书、原理图设计和审查、BOM搭建及维护、指导和审查layout、DFx审查,负责硬件产品测试标准的制定、测试结果的审查,保证测试的完备性从而保证系统的可靠性。负责硬件产品的量产导入,生产相关问题解决定位,以及生产良率提升。与产品各个开发团队如与软件、结构、高速信号设计、热设计、系统测试等团队协同工作并负责技术协调, 4、性能优化 • 通过网络系统研发,生产,交付,运营,维保等全链条质量优化以及质量专项工作,持续夯实服网络系统的稳定性,提升客户体验 • 对业务与运营软件进行性能分析,结合系统软硬件适配调优,优化业务性能瓶颈

1、负责公共云产品在不同CPU下的功能研发和适配,解决全栈的软硬件技术问题,面向客户提供自主可控、安全可信的云平台。 2、设计和实现跨CPU平台的横向特性和功能,包括安全合规、资源共池管理等。设计和实现云平台的自动化部署、高可用、热升级、架构和稳定性规范。 3、负责云产品在不同CPU体系下的性能调优和应用迁移技术方案,提供给客户统一的云平台的使用体验。
1、技术规划 • 持续跟踪弹性计算领域软硬件相关领域的技术发展趋势,深入了解可以业务应用场景规划和推动产品新技术的规划和落地 • 负责弹性计算硬件产品技术规划,主导包括系统方案/架构/配置、硬件核心技术创新,提前管理设计的需求匹配性及质量风险 2、架构与解决方案设计 • 针对阿里云弹性计算对服务器或网络应用场景的需求分析,负责对接服务器团队完成服务器软硬件架构规划、网络软硬件架构规划及整体产品解决方案(包含但不限于芯片,存储,计算,网络等),输出市场需求书MRD,产品需求书PRD,产品规格书等关键文档。 • 制定合理的产品生命周期规划,做从需求分析到EOL的全生命周期管理 • 及时跟踪业界动态,针对性进行相关竞品分析和信息收集,保障解决方案的竞争力 • 组织梳理相关的软/硬件性能/可靠性测试评估 3、技术研发 • 针对硬件技术架构,性能特征, 匹配产品定位需求驱动相关的计算/存储/网络技术方案 • 分析业务整体逻辑/业务软件实现等,驱动软硬件方案落地 4、性能优化 • 通过弹性计算性能平台评估产品性能,驱动服务器系统,供应商, 弹性计算虚拟化,操作系统进行性能优化 • 对业务软件进行性能分析,结合系统软硬件适配调优,优化业务性能瓶颈
岗位职责 1. GPU集群运维与管理 -负责AI训练与推理所需的GPU服务器、集群及相关基础设施的日常运维。 -进行GPU资源全生命周期管理,保障AI任务的高效运行。 2. 系统部署与优化 -参与OS、GPU驱动、CUDA、cuDNN、NCCL等基础环境的安装、升级与兼容性测试。 -针对AI训练/推理任务优化系统参数(如内核调优、RDMA调优、IO调优等)。 3. 故障排查与性能调优 -快速定位并解决GPU服务器硬件、网络、存储等相关问题。 -分析任务运行日志与监控数据,优化资源利用率。 4. 自动化与工具开发 -编写脚本(Python/Bash等)实现批量部署、监控报警、日志采集、备机管理等自动化运维功能。 -参与GPU集群管理平台的功能扩展与性能优化。 5. 跨团队协作 -与模型训练、推理服务、数据服务团队紧密合作,理解业务需求并提供技术支持。 -协助业务团队定位模型运行中的硬件/系统瓶颈。