京东GPU性能优化专家
任职要求
1.熟练掌握CUDA编程,具备GPU编程和优化经验,能够进行高效的并行计算; 2.熟练使用PyTorch、TensorFlow、PaddlePaddle或其他主流深度学习框架; 3.熟练掌握模型训练或推理的性能分析方法; 4.熟悉Nvidia…
工作职责
1.在各类GPU(Nvidia/AMD gpu,昇腾NPU等)上测试常见开源模型,评估硬件的功能及性能; 2.分析模型训练或推理的性能瓶颈,提升硬件资源利用率; 3.优化算子,提升模型在GPU上的运行效率; 4.优化多机多卡的网络性能; 5.与相关团队合作,提高对外售卖的GPU资源的产品力,比如AI开发平台,GPU高性能计算集群等。
1.负责高性能计算场景下GPU集群计算的性能分析与优化,识别性能瓶颈并进行性能优化; 2.负责优化GPU内核执行效率,优化CUDA内核、显存访问模式及GPU流水线利用率; 3.负责优化分布式通信库在多节点多卡环境下的通信性能,以及计算和通信重叠优化; 4.设计并实现性能监控与诊断工具,识别性能热点与资源争用问题,形成性能调优的工程方案。
1、负责LLM和Diffusion Model的性能优化,基于TensorRT和模型量化剪枝等技术,以及CUDA算子融合重构等性能优化方案,结合业务需求将GPU性能发挥到极致; 2. 负责端云架构下的大模型整体推理优化算法方案研发,通过与算法效果团队深度合作实现云端和设备端算法模块与全系统架构的全面性能优化。
负责以下一个或者多个领域: 1. 基于平头哥数据中心服务器AI芯片的应用和benchmark的性能分析与优化。 2. 通过分析包括上层的应用,中间层的框架、库和底层的Linux操作系统、硬件驱动的行为模式,以及竞对的性能表现,识别系统性能瓶颈,明确软硬件的优化方向。 3. 将识别出的性能瓶颈场景进行简化,实现称为有代表性的perf microbenchmark,作为软硬件优化的输入和用例。 4. 和软件团队协作,参与软件优化的开发工作,包括但不限于:给出优化方案或建议,提供性能测试用例。 5. 和AI芯片架构和硬件设计团队协作,将分析中定位到的硬件性能瓶颈问题反馈给硬件团队,提供相应测试用例,为下一代硬件产品的优化提出可行性建议。 6. 和测试自动化团队合作,建立和完善高效的AI芯片性能测试系统;提高团队内性能测试和回归的工作效率。
作为推理系统与引擎的研发和优化专家,将主导或参与面向Qwen等模型的真实业务工作负载的端到端推理性能分析与优化工作,具体职责包括但不限于: - 针对重点模型实际业务场景下的推理部署方案进行不同层级的性能验证,对典型负载特征进行深入分析建模,支撑模型演进、推理架构选型与资源规划; - 根据任务负载特点,对模型不同并行策略(如TP/DP/EP/PP/CP)进行深入分析,并结合分布式部署架构(PD/AF分离等),实现和验证不同层面技术的协同优化方案,提升端到端性能; - 分析和验证不同后端高性能Kernel在不同模型和负载下的性能表现,根据具体需求对关键算子运用各类优化手段进行定制化加速,提升硬件利用率; - 关注和探索前沿快速解码技术方法以及其它推理优化和加速技术,结合实际场景进行验证,并在推理系统与各类优化方案无缝集成,提供极致的用户体验; - 与周边工程、模型、系统、产品团队紧密协作,将优化成果落地到生产环境,并持续跟踪线上性能表现。