美团服务器硬件架构师
任职要求
1、本科及以上学历,有良好且全面的计算机/服务器软硬件知识,熟悉服务器硬件架构,熟悉服务器重要部件的规格参数、技术特点,以及评测方案;熟悉服务器Roadmap迭代节奏和业内趋势;
2、熟悉网卡架构和芯片拓扑,能够对网卡进行性能和稳定性评测(带宽/iops/时延/丢包测试),以及对网卡的高级特性(RDMA/ECN/PFC)有深入研究;了解DPU功能测试、算力offload方案验证等;熟悉不同GPU集群的网络互联方…工作职责
1、负责通用服务器的架构研究、选型评估、准入评测、线上问题跟进与解决,保障服务器品质与稳定性; 2、能够对线上问题进行故障分析和定位;能结合业务场景,设计贴近业务场景的Benchmark测试方案; 3、对网卡部件有深入了解和研究,评测网卡性能和稳定性,以及相关的高级特性,涵盖在GPU场景中的网卡功能测试; 4、了解业务需求和瓶颈点,结合硬件特性和Roadmap趋势,制定合理的套餐配置; 5、相关测试脚本、压测脚本的开发;其他服务器技术相关工作;
-参与私有化部署平台的后端架构设计、开发和优化,主要使用 Go 语言 -设计并开发企业级操作系统自动化部署平台,支持大规模服务器环境的高效安装和配置 -优化操作系统定制和部署流程,提高硬件适配性和部署效率,简化安装过程 -负责操作系统的安装工具链研发(如PXE、Tinkerbell等),并进行定制化开发。 -深入研究并解决复杂的系统安装和启动问题,包括网络引导、硬件初始化、文件系统挂载等关键环节 -根据不同硬件架构的需求(x86、ARM、DPU等),定制化开发操作系统内核和驱动支持 -深入理解 Kubernetes (K8s) 的核心概念,并将其与业务需求紧密结合,具备封装 K8s 的接口和服务的能力 -可独立设计并完成子系统的开发,编写高质量的代码,确保代码的可维护性和高效性能 -参与系统的性能优化、故障排查及技术难题攻关,保证平台的高可用性和稳定性
1、负责内部机器学习平台训练框架的研究与开发(包括数据预处理/训练/推理),服务于广告、推荐、搜索等场景; 2、负责实时高性能推理系统设计与开发,如算子融合、编译优化、模型量化、混合精度、异构硬件加速等; 3、负责性能优化与架构升级,持续提升数据预处理/训练/推理性能; 4、与算法工程师深度合作,为重点项目进行算法与系统的联合优化。
1、通过对业务应用和系统软件的分析,基于软件定义芯片设计需求,协同芯片团队完成业界领先的架构设计; 2、负责自研Benchmark体系建设,构建权威的能够反映软件特征的性能分析和评估基准; 3、负责Workload特征提取与分析,以及仿真工具的建设,打造基于Workload进行架构探索和设计的工具链; 4、负责芯片研发阶段的性能仿真、验证和调优,结合架构创新,打造新硬件的性价比优势; 5、负责服务器CPU代际切换优化,解决CPU架构和性能问题,使能新特性,优化Workload性能,确保达到预期性价比目标。