腾讯GPU/异构服务器架构工程师
任职要求
1.本科或以上学历,计算机工程,电子工程或相关学科; 2.有5年以上服务器硬件设计以及架构设计工作经验; 3.熟悉业界主流GPU厂商的训练架构、软件协议栈以及集合通讯库; 4.熟悉计算机体系结构、硬件设计和实现,熟悉CPU、GPU、FPGA等异构计算硬件; 5.熟悉PCIe、DDR、网络和存储等系统总线和协议; 6.在大团队、跨团队的项目推动和组织方面有成功经验; 7.具备良好的分析和解决问题的能力。 加分项 1.在同等条件下,通过腾讯云认证或取得同等资格认证的候选人,我们会优先考虑。
工作职责
1.结合异构类GPU应用特点,深入理解上层业务应用,负责异构类GPU硬件系统需求分析,规划腾讯异构GPU硬件产品路标; 2.负责异构领域硬件产品的整体架构设计及优化; 3.主导服务器开发项目,需要把控服务器方案实施细节的可行性,保障产品按时、按质交付; 4.熟悉主流的GPU训练软件架构,包括TensorFlow、PyTorch等,以及不同GPU厂商的软件协议栈,包括CUDA、OpenCL等; 5.针对腾讯应用在AI以及渲染领域评估GPU性能指标,包括但不限于带宽、显存容量、计算性能、功耗等,并制定性能测试计划; 6.能够联合业务针对不同GPU厂商架构进行训练框架的调优、测试以及性能评估; 7.熟悉并行计算的网络架构,能够针对需求进行并行计算集合通讯库的修改以及调优; 8.和业务团队、操作系统团队紧密配合,分析工作负载模型,并帮助业务团队实现硬件方案创新,提升性能、降低成本; 9.跟进应用过程中的部件故障状态,联合供应商进行问题的解决和优化。
1、GPU/异构计算(FPGA/ASIC)部件的选型路标计划的制定、评测、引入和交付落地; 2、负责GPU/异构计算机型在与机器学习/AI等业务的适配与性能调优; 3、负责GPU/异构计算服务器的性能评测和稳定性调优,分析和优化系统性能瓶颈; 4、跟进GPU/异构计算故障在数据中心的监控、诊断与处理; 5、与行业联盟和开放标准委员会合作,参与新兴技术研究和新标准的定制。
1、GPU/异构计算(FPGA/ASIC)部件的选型路标计划的制定、评测、引入和交付落地; 2、负责GPU/异构计算机型在与机器学习/AI等业务的适配与性能调优; 3、负责GPU/异构计算服务器的性能评测和稳定性调优,分析和优化系统性能瓶颈; 4、跟进GPU/异构计算故障在数据中心的监控、诊断与处理; 5、与行业联盟和开放标准委员会合作,参与新兴技术研究和新标准的定制。
1、把握服务器技术发展趋势,进行业内新技术的调研;结合公司实际业务,进行计算、存储、异构等新型服务器架构的方案评估,推动项目落地; 2、负责字节跳动计算型、存储型、GPU等定制化服务器产品的硬件规格定义,规划产品硬件方案,包括各板卡Layout层叠结构、Power拓扑、时钟拓扑、系统管理拓扑、主要元器件和连接器选型等,与服务器ODM厂商一起进行服务器主板及各子板卡的原理图设计、原理图和Layout的核查,在产品研发周期内与ODM厂商一起保障硬件设计质量; 3、与服务器ODM厂商紧密合作,跟进服务器整机硬件测试(包括功能、信号、可靠性测试等),输出测试报告;与ODM厂商一起进行相关问题的处理,保障项目高质量完成各阶段转段;跟进服务器整机各板卡PCB&PCBA加工生产,推动生产加工相关问题的解决,与ODM厂商一起完成板卡工厂端功能测试的导入工作; 4、主导服务器等整机研发的硬件端到端交付过程,保障整机顺利上线灰度,与运营维护等同事一起及时跟进线上机器的问题处理。
1、把握服务器技术发展趋势,进行业内新技术的调研;结合公司实际业务,进行计算、存储、异构等新型服务器架构的方案评估,推动项目落地; 2、负责字节跳动计算型、存储型、GPU等定制化服务器产品的硬件规格定义,规划产品硬件方案,包括各板卡Layout层叠结构、Power拓扑、时钟拓扑、系统管理拓扑、主要元器件和连接器选型等,与服务器ODM厂商一起进行服务器主板及各子板卡的原理图设计、原理图和Layout的核查,在产品研发周期内与ODM厂商一起保障硬件设计质量; 3、与服务器ODM厂商紧密合作,跟进服务器整机硬件测试(包括功能、信号、可靠性测试等),输出测试报告;与ODM厂商一起进行相关问题的处理,保障项目高质量完成各阶段转段;跟进服务器整机各板卡PCB&PCBA加工生产,推动生产加工相关问题的解决,与ODM厂商一起完成板卡工厂端功能测试的导入工作; 4、主导服务器等整机研发的硬件端到端交付过程,保障整机顺利上线灰度,与运营维护等同事一起及时跟进线上机器的问题处理。