logo of jd

京东GPU性能优化专家

社招全职软件开发岗地点:北京状态:招聘

任职要求


1.熟练掌握CUDA编程,具备GPU编程和优化经验,能够进行高效的并行计算; 
2.熟练使用PyTorchTensorFlowPaddlePaddle或其他主流深度学习框架;
3.熟练掌握模型训练或推理的性能分析方法;
4.熟悉Nvidia GPU底层软硬件架构,如nccl、nvswitch、gpu direct rdma等;
5.具有HPC GPU高性能计算集群使用经验者优先;
6.熟悉CutLass, ptx编程者优先。
符合京东价值观:客户为先、创新、拼搏、担当、感恩、诚信。

工作职责


1.在各类GPU(Nvidia/AMD gpu,昇腾NPU等)上测试常见开源模型,评估硬件的功能及性能;
2.分析模型训练或推理的性能瓶颈,提升硬件资源利用率;
3.优化算子,提升模型在GPU上的运行效率;
4.优化多机多卡的网络性能;
5.与相关团队合作,提高对外售卖的GPU资源的产品力,比如AI开发平台,GPU高性能计算集群等。
包括英文材料
CUDA+
PyTorch+
TensorFlow+
PaddlePaddle+
深度学习+
HPC+
相关职位

logo of aliyun
社招5年以上云智能集团

1.负责高性能计算场景下GPU集群计算的性能分析与优化,识别性能瓶颈并进行性能优化; 2.负责优化GPU内核执行效率,优化CUDA内核、显存访问模式及GPU流水线利用率; 3.负责优化分布式通信库在多节点多卡环境下的通信性能,以及计算和通信重叠优化; 4.设计并实现性能监控与诊断工具,识别性能热点与资源争用问题,形成性能调优的工程方案。

更新于 2025-09-03
logo of vivo
社招5年以上研发类

1、负责LLM和Diffusion Model的性能优化,基于TensorRT和模型量化剪枝等技术,以及CUDA算子融合重构等性能优化方案,结合业务需求将GPU性能发挥到极致; 2. 负责端云架构下的大模型整体推理优化算法方案研发,通过与算法效果团队深度合作实现云端和设备端算法模块与全系统架构的全面性能优化。

logo of thead
社招5年以上技术类-开发

负责以下一个或者多个领域: 1. 基于平头哥数据中心服务器AI芯片的应用和benchmark的性能分析与优化。 2. 通过分析包括上层的应用,中间层的框架、库和底层的Linux操作系统、硬件驱动的行为模式,以及竞对的性能表现,识别系统性能瓶颈,明确软硬件的优化方向。 3. 将识别出的性能瓶颈场景进行简化,实现称为有代表性的perf microbenchmark,作为软硬件优化的输入和用例。 4. 和软件团队协作,参与软件优化的开发工作,包括但不限于:给出优化方案或建议,提供性能测试用例。 5. 和AI芯片架构和硬件设计团队协作,将分析中定位到的硬件性能瓶颈问题反馈给硬件团队,提供相应测试用例,为下一代硬件产品的优化提出可行性建议。 6. 和测试自动化团队合作,建立和完善高效的AI芯片性能测试系统;提高团队内性能测试和回归的工作效率。

更新于 2025-09-08
logo of bytedance
社招A00725A

团队介绍:字节跳动 Seed 团队成立于 2023 年,致力于寻找通用智能的新方法,追求智能上限。团队研究方向涵盖 LLM、语音、视觉、世界模型、基础架构、AI Infra、下一代 AI 交互等,在中国、新加坡、美国等地设有实验室和岗位。 Seed 团队在 AI 领域拥有长期愿景与决心,坚持深耕基础,期望成为世界一流的 AI 研究团队,为科技和社会发展作出贡献。目前团队已推出业界领先的通用大模型以及前沿的多模态能力,支持豆包、扣子、即梦等超过 50 个应用场景。 1、负责开发和优化字节跳动公司级的大模型推理框架; 2、主要通过GPU、CUDA性能优化的手段,结合线上实际情况,打造业界领先的高性能LLM推理引擎; 3、负责机器学习系统前瞻技术的调研和引入; 4、与算法部门深度合作,进行算法与系统的联合优化。

更新于 2024-05-08