米哈游Infra 推理优化工程师
社招全职程序&技术类地点:上海状态:招聘
任职要求
1. 具有一定的具备 GPU 性能优化经验,包括但不限于 CUDA/Cute/Triton/TileLang 等; 2. 扎实的系统与基础设施能力,熟悉 Linux 环境下高性能服务开发,具备良好的代码规范和系统设计能力; 3. 具备较丰富的大模型(LLM…
登录查看完整任职要求
微信扫码,1秒登录
工作职责
1. 设计并实现高可用的大模型服务化部署调度,支持多用户并发、低延迟、弹性伸缩; 3. 深入跟进团队内训练/推理相关的性能优化工作,解决实际业务场景中的性能瓶颈; 3. 持续跟进 AI Infra、分布式系统与推理优化前沿技术,推动新技术的验证与落地。
包括英文材料
CUDA+
https://developer.nvidia.com/blog/even-easier-introduction-cuda/
This post is a super simple introduction to CUDA, the popular parallel computing platform and programming model from NVIDIA.
https://www.youtube.com/watch?v=86FAWCzIe_4
Lean how to program with Nvidia CUDA and leverage GPUs for high-performance computing and deep learning.
Triton Inference Server+
https://docs.nvidia.com/deeplearning/triton-inference-server/user-guide/docs/index.html
Triton Inference Server is an open source inference serving software that streamlines AI inferencing.
还有更多 •••