字节跳动服务器硬件系统架构师-智能计算
任职要求
1、有服务器产品架构设计成功经验,在服务器硬件、运维方面有深厚的技术积累,深入理解计算机体系结构,精通CPU、GPU服务器硬件系统架构;
2、在GPU、CPU、内存、SSD、网卡等部件的应用和设计原理上有成功的实践经验;
3、深入数据中心基础设施、集群网络、…工作职责
1、负责字节跳动服务器产品硬件架构设计,确保跨产品、跨代次硬件架构的一致性、系统性; 2、主导服务器技术选型,负责制定和更新服务器设备级架构路标,确保满足业务需求和技术先进性,对产品架构的领先性、关键技术准备节奏、可实施性负责; 3、研究和跟进服务器行业的最新技术,和业务团队、操作系统团队紧密配合,实现硬件方案创新,提升性能、降低成本,并确保系统的高可用性和高效运行; 4、与硬件研发、网络、IDC规划团队紧密协作,确定硬件架构总体设计方案,确保服务器硬件系统在TCO、性能、易部署、易运维方向竞争力领先。
1、技术规划 • 负责网络硬件产品技术规划,主导包括系统方案/架构/配置及工业化设计、硬件核心技术创新,并深入到供应商的研发端,审核、监督设计过程,提前管理设计的需求匹配性及质量风险 • 持续跟踪软硬件相关领域的技术发展趋势,深入业务场景规划和推动新技术的规划和落地 2、架构与解决方案设计 • 针对阿里大规模网络或服务器应用场景的需求分析,负责端到端的网络设备软硬件架构规划、服务器软硬件架构规划及整体产品解决方案(包含但不限于芯片,存储,计算,网络等),输出市场需求书MRD,产品需求书PRD,产品规格书等关键文档。 • 制定合理的产品生命周期规划,做从需求分析到EOL的全生命周期管理 • 及时跟踪业界动态,针对性进行相关竞品分析和信息收集,保障解决方案的先进性 3、技术研发 • 分析业务整体逻辑/业务软硬件实现等,结合系统软硬件能力提出针对性的解决方案/研发项目。 * 主持网络硬件产品的设计开发,负责硬件设计包括硬件规格书、原理图设计和审查、BOM搭建及维护、指导和审查layout、DFx审查,负责硬件产品测试标准的制定、测试结果的审查,保证测试的完备性从而保证系统的可靠性。负责硬件产品的量产导入,生产相关问题解决定位,以及生产良率提升。与产品各个开发团队如与软件、结构、高速信号设计、热设计、系统测试等团队协同工作并负责技术协调, 4、性能优化 • 通过网络系统研发,生产,交付,运营,维保等全链条质量优化以及质量专项工作,持续夯实服网络系统的稳定性,提升客户体验 • 对业务与运营软件进行性能分析,结合系统软硬件适配调优,优化业务性能瓶颈
1、技术规划 • 持续跟踪弹性计算领域软硬件相关领域的技术发展趋势,深入了解可以业务应用场景规划和推动产品新技术的规划和落地 • 负责弹性计算硬件产品技术规划,主导包括系统方案/架构/配置、硬件核心技术创新,提前管理设计的需求匹配性及质量风险 2、架构与解决方案设计 • 针对阿里云弹性计算对服务器或网络应用场景的需求分析,负责对接服务器团队完成服务器软硬件架构规划、网络软硬件架构规划及整体产品解决方案(包含但不限于芯片,存储,计算,网络等),输出市场需求书MRD,产品需求书PRD,产品规格书等关键文档。 • 制定合理的产品生命周期规划,做从需求分析到EOL的全生命周期管理 • 及时跟踪业界动态,针对性进行相关竞品分析和信息收集,保障解决方案的竞争力 • 组织梳理相关的软/硬件性能/可靠性测试评估 3、技术研发 • 针对硬件技术架构,性能特征, 匹配产品定位需求驱动相关的计算/存储/网络技术方案 • 分析业务整体逻辑/业务软件实现等,驱动软硬件方案落地 4、性能优化 • 通过弹性计算性能平台评估产品性能,驱动服务器系统,供应商, 弹性计算虚拟化,操作系统进行性能优化 • 对业务软件进行性能分析,结合系统软硬件适配调优,优化业务性能瓶颈
岗位职责 1. GPU集群运维与管理 -负责AI训练与推理所需的GPU服务器、集群及相关基础设施的日常运维。 -进行GPU资源全生命周期管理,保障AI任务的高效运行。 2. 系统部署与优化 -参与OS、GPU驱动、CUDA、cuDNN、NCCL等基础环境的安装、升级与兼容性测试。 -针对AI训练/推理任务优化系统参数(如内核调优、RDMA调优、IO调优等)。 3. 故障排查与性能调优 -快速定位并解决GPU服务器硬件、网络、存储等相关问题。 -分析任务运行日志与监控数据,优化资源利用率。 4. 自动化与工具开发 -编写脚本(Python/Bash等)实现批量部署、监控报警、日志采集、备机管理等自动化运维功能。 -参与GPU集群管理平台的功能扩展与性能优化。 5. 跨团队协作 -与模型训练、推理服务、数据服务团队紧密合作,理解业务需求并提供技术支持。 -协助业务团队定位模型运行中的硬件/系统瓶颈。
特斯拉正在寻找一位富有激情和丰富经验的数据中心工程师加入我们的IT基础设施及运营团队,负责数据中心基础设施,理想的候选人具备丰富的设计,建造以及维护数据中心基础设施的能力,包括但不限于计算机、通信、流程管理,电力,暖通和智能化等领域的专业知识,候选人将会帮助我们建造下一代数据中心来保障我们的IT基础设施99.99%可用。 岗位职责 负责数据中心业务连续稳定、制定并达成SLA、参与新数据中心的建设、现有数据中心的扩展以及包括计算、存储、网络和其他基础设施组件在内的部署; 负责参与数据中心服务器,网络设备部署、资产管理、上架、布线及硬件资源规划; 负责服务器硬件(CPU、内存、硬盘、RAID卡、网卡、电源等)的安装、调试、维护及故障排查; 负责制定流程规范、推动自动化工具落地,提升团队效率和质量; 负责运维服务过程中的问题处理及管控进度,并对项目实施及售后服务工作持续优化; 负责编写数据中心运维文档,包括数据中心基础设施,设备维护手册、故障处理 SOP 等; 负责设备生命周期的过程优化和治理,完成产品的线上化推进过程的风险管控和保障; 负责资源交付、设备运维、供应商及IDC数据中心IT管理,持续完善标准流程规范制定; 具有较强的分析问题解决问题的能力,具有良好的团队沟通协作能力; 根据需要为多个团队提供远程服务,包括重启、测试/故障排除等; 建设交付及压力测试,数据中心平面图,机柜立面图、机电安装图,容量文档,资产管理和其他必要的设计文件; 数据中心智能化,信息化建设和管理。