米哈游AI 推理系统工程师

社招全职2年以上程序&技术类地点：上海状态：招聘

扫码手机上打开

任职要求

1.有2年以上推理部署或 AI 性能优化经验。
2.熟悉至少 2 种主流推理引擎（TensorRT / vLLM / Triton / SGlang 等）的原理与调优手段。
3.熟悉 NVIDIA GPU 生态（CUDA、cuDNN、TensorRT、NCCL），了解其架构演进（A100 → H100 → B200 等）。
4.了解 AMD ROCm 或国产 NPU 至少其一的演进路径、算子支持与生态现状。
5.有 开源大模型（LLM / 扩散模型 / 多模态） 部署优化实战经验。
6.扎实的 性能建模能力：能基于 FLOPs、带宽、显存、Batch Size、Sequence Length …

登录查看完整任职要求

微信扫码，1秒登录

工作职责

负责 AI 模型在多硬件平台的生产级推理部署、性能调优与稳定性保障，与算法团队紧密协作，输出最优部署方案。
核心职责：
1. 模型部署：负责 LLM、CV、语音等多类模型的推理服务化部署，覆盖 NVIDIA（CUDA / TensorRT）、AMD（ROCm） 及国产卡（昇腾 CANN、寒武纪、燧原、摩尔线程等） 硬件平台。
2. 推理引擎选型与调优：能基于业务场景（吞吐 / 时延 / 成本）对比 TensorRT、vLLM、Triton、SGlang 等引擎，输出选型与调优方案。
3. 性能建模与分析：基于 Roofline 模型、计算 / 访存比、并行策略、KV Cache、Continuous Batching 等进行量化分析，定位瓶颈并给出优化建议。
4. Benchmark 体系：搭建离线 / 在线压测与回归测试框架，输出量化评估报告。
5. 线上稳定性：推理服务监控、告警、异常排查与性能回归治理。
6. 跨团队协作：对接算法团队，理解模型结构、算子特性与精度约束，将工程约束前置反馈到模型设计与训练环节。

📮 投递简历 ✨AI模拟面试

难度：

包括英文材料

推理引擎+

TensorRT+

vLLM+

Triton Inference Server+

SGLang+

CUDA+

NCCL+

大模型+

还有更多 •••

登录查看完整学习资料