美团GPU硬件架构师
任职要求
1、本科及以上学历,熟悉通用CPU平台架构,有良好且全面的计算机/服务器软硬件知识;熟悉NVIDIA、华为的软件生态,熟悉GPU的硬件属性、芯片架构以及服务器系统设计; 2、三年以上GPU测试经验,熟悉AI常用框架、模型,熟悉一种或多种主流GPU架构(NVIDIA/华为昇腾/其他国产GPU),熟悉GPU服务器系统拓扑以及集群互联的网络方案; 3、掌握GPU原理与测试方法,了解P2P/GDR/NCCL等测试,熟悉CNN/NLP/Transformer等模型与测试方案;跟进主流GPU产品的Roadmap;熟悉某种脚本语言(shell/python)并具有debug能力,具备自动化测试执行能力; 4、对GPU服务器的全流程交付有一定理解,了解不同交付节点的软硬件风险点,以及检查机制; 5、良好的沟通能力、团队协作能力;扎实的软硬件技术功底;具备较强的责任心。
工作职责
1、负责GPU部件/GPU服务器的选型评估、准入测试、验收方案,推动GPU选型的标准化、流程化、自动化;支撑GPU产品的高质量交付; 2、能够定位GPU故障、性能异常调优,并结合业务场景,设计贴近业务场景的Benchmark测试方案;有模型性能调优经验者优先; 3、主动收集和了解业务需求,跟进主流GPU架构演进,基于业务和服务器硬件特性,制定合理套餐配置; 4、与网络/IDC/业务研发团队协同配合,参与技术方案讨论,从单卡、单机,拓展到超节点集群互联的方案设计,兼顾性能、稳定性与成本; 5、负责GPU服务器的稳定性保障工作,如监控、诊断、故障治理、数据运营等;
团队介绍:字节跳动直播推荐架构团队,负责抖音全场景直播体裁推荐系统的设计和开发,工作内容覆盖离在线推荐链路全流程,包括策略架构、模型架构、数据架构等子方向,支撑算法团队的高效迭代,解决海量吞吐带来的系统性能/成本/稳定性挑战,在业务中抽象/沉淀基础服务/框架、服务组件以及效率工具等核心基建。 1、策略架构,负责推荐在线链路的服务建设和迭代,串联请求处理全流程,解决链路延迟、吞吐瓶颈、数据的高效传递等核心问题,支持业务策略的快速和可持续迭代,不断优化系统的性能/成本/稳定性,动态逼近优化上界,提升策略ROI; 2、模型架构,负责精粗召等推荐模型的在线推理、离线训练以及部分平台化工作,支持模型的持续复杂化演进,解决计算和存储瓶颈,突破模型复杂度X海量离在线样本X模型数量带来的巨大工程挑战,紧贴前沿框架、算法和加速硬件,支撑推荐算法的持续突破。
团队介绍:字节跳动电商推荐架构团队,负责抖音全场景电商体裁推荐系统的设计和开发,工作内容覆盖离在线推荐链路全流程,包括策略架构、模型架构、数据架构等子方向,支撑算法团队的高效迭代,解决海量吞吐带来的系统性能/成本/稳定性挑战,在业务中抽象/沉淀基础服务/框架、服务组件以及效率工具等核心基建。 1、参与大规模机器学习在线预估和离线训练系统的研发与优化,支撑今日头条、抖音等字节跳动旗下电商场景高效模型推理; 2、紧贴前沿框架和社区工作,支持模型的持续复杂化演进,解决计算和存储瓶颈,突破模型复杂度X海量离在线样本X模型数量带来的巨大工程挑战; 3、参与大规模特征及样本的处理与流转、模型训练与调度等相关问题的研究与突破; 4、与推荐算法同学紧密合作,分析并解决上述问题及任务,并应用到实际业务中。
1. 推理引擎应用与优化: 负责AI模型的性能优化与部署,应用业界主流推理框架(如vLLM、SGLang、TensorRT、ONNX Runtime、 TVM、OpenVINO等)对模型进行加速 2. 模型性能深度分析与调优: 针对公司业务场景,对各类AI模型(包括但不限于大语言模型LLM、VL、ASR、TTS等)在不同硬件平台(GPU、PPU、昇腾、海光等)上进行深度性能分析、定位瓶颈并制定优化方案 3. 模型轻量化技术实践: 熟练运用模型量化(PTQ/QAT)、剪枝、蒸馏等技术,在满足业务精度要求的前提下,最大化提升模型推理速度、降低资源消耗 4. 自动化部署与MLOps流程建设: 建立并完善模型部署、监控和迭代的自动化流程(CI/CD、MLOps),确保模型稳定、高效地服务内外部客户 5. 前沿技术跟进与引入: 持续跟进行业前沿的AI推理加速技术,探索并引入新的优化方案、工具及硬件(如LLM推理优化库、新型AI芯片等),持续提升业务模型的部署效率和运行性能