字节跳动服务器系统硬件研发工程师-Data
任职要求
1、5年以上x86(或ARM)架构服务器板卡硬件设计经验,熟悉UART、SPI、I2C、VGA等低速总线以及DDR4、DDR5、PCIe、SATA等高速总线的原理图设计; 2、对计算机体系结构有深入理解,特别是深入理解某子系统,如CPU、Memory、高速IO等; 3、对计算型、存储型和GPU服务器系统架构有深入了解; 4、熟悉板卡Layout布局布线的基本规则,包括元器件、Power、高速信号、时钟、低速关键信号等; 5、熟练使用至少一种EDA工具如:Cadence、OrCAD、Mentor等;熟悉服务器板卡生产加工、功能测试、老化测试流程,熟悉服务器整机BOM配置管理及生产导入; 6、良好的团体沟通和协作能力,有较强的学习能力,动手能力和知识迁移能力。
工作职责
1、把握服务器技术发展趋势,进行业内新技术的调研;结合公司实际业务,进行计算、存储、异构等新型服务器架构的方案评估,推动项目落地; 2、负责字节跳动计算型、存储型、GPU等定制化服务器产品的硬件规格定义,规划产品硬件方案,包括各板卡Layout层叠结构、Power拓扑、时钟拓扑、系统管理拓扑、主要元器件和连接器选型等,与服务器ODM厂商一起进行服务器主板及各子板卡的原理图设计、原理图和Layout的核查,在产品研发周期内与ODM厂商一起保障硬件设计质量; 3、与服务器ODM厂商紧密合作,跟进服务器整机硬件测试(包括功能、信号、可靠性测试等),输出测试报告;与ODM厂商一起进行相关问题的处理,保障项目高质量完成各阶段转段;跟进服务器整机各板卡PCB&PCBA加工生产,推动生产加工相关问题的解决,与ODM厂商一起完成板卡工厂端功能测试的导入工作; 4、主导服务器等整机研发的硬件端到端交付过程,保障整机顺利上线灰度,与运营维护等同事一起及时跟进线上机器的问题处理。
1、负责服务器产品数据的方案设计、需求分析、开发、测试、发布等环节,确保产品数据在生命周期管理中的准确性和有效性; 2、负责服务器产品的数据管理系统的搭建及优化,梳理服务器BOM结构、设计原则及底层数据结构,确保数据在全流程中的应用,优化IT系统以提升数据管理的效率; 3、支撑服务器部件、L6及以下层级器件的数据结构治理与开发测试。
1、负责字节跳动全球百万级服务器硬件监控体系及自动化运维体系的建设工作;深度参与线上新机型、新硬件及新场景的硬件监控方案制定与适配流程,精准定义并持续完善各类硬件故障判断标准,显著提升硬件监控的准确率与召回率,为服务器稳定运行保驾护航; 2、针对线上复杂的服务器硬件疑难故障,依托服务器底层黑盒日志(如BMC日志、IPMI/SMBIOS数据、操作系统内核日志、硬件事件日志等)展开深度分析;协同内外部软硬件研发专家,实现疑难故障的精准根因定位;积极推动线上疑难故障自动化诊断分析能力建设,不断提高硬件故障监控诊断明确化率与报修维修一致率,有效降低故障返修率; 3、负责线上服务器监控相关Oncall问题的快速排查、精准定位与深度分析,及时为团队提供专业答疑;建立并完善硬件故障知识库,系统沉淀典型故障案例及高效排查方法论,助力团队整体技术能力提升。
1、通过对业务应用和系统软件的分析,基于软件定义芯片设计需求,协同芯片团队完成业界领先的架构设计; 2、负责自研Benchmark体系建设,构建权威的能够反映软件特征的性能分析和评估基准; 3、负责Workload特征提取与分析,以及仿真工具的建设,打造基于Workload进行架构探索和设计的工具链; 4、负责芯片研发阶段的性能仿真、验证和调优,结合架构创新,打造新硬件的性价比优势; 5、负责服务器CPU代际切换优化,解决CPU架构和性能问题,使能新特性,优化Workload性能,确保达到预期性价比目标。