logo of mihoyo

米哈游AI 推理系统工程师

社招全职2年以上程序&技术类地点:上海状态:招聘

任职要求


1.有2年以上推理部署或 AI 性能优化经验。
2.熟悉至少 2 种主流推理引擎TensorRT / vLLM / Triton / SGlang 等)的原理与调优手段。
3.熟悉 NVIDIA GPU 生态(CUDA、cuDNN、TensorRTNCCL),了解其架构演进(A100 → H100 → B200 等)。
4.了解 AMD ROCm 或国产 NPU 至少其一的演进路径、算子支持与生态现状。
5.有 开源大模型LLM / 扩散模型 / 多模态) 部署优化实战经验。
6.扎实的 性能建模能力:能基于 FLOPs、带宽、显存、Batch Size、Sequence Length …
登录查看完整任职要求
微信扫码,1秒登录

工作职责


负责 AI 模型在多硬件平台的生产级推理部署、性能调优与稳定性保障,与算法团队紧密协作,输出最优部署方案。
核心职责:
1. 模型部署:负责 LLM、CV、语音等多类模型的推理服务化部署,覆盖 NVIDIA(CUDA / TensorRT)、AMD(ROCm) 及国产卡(昇腾 CANN、寒武纪、燧原、摩尔线程等) 硬件平台。
2. 推理引擎选型与调优:能基于业务场景(吞吐 / 时延 / 成本)对比 TensorRT、vLLM、Triton、SGlang 等引擎,输出选型与调优方案。
3. 性能建模与分析:基于 Roofline 模型、计算 / 访存比、并行策略、KV Cache、Continuous Batching 等进行量化分析,定位瓶颈并给出优化建议。
4. Benchmark 体系:搭建离线 / 在线压测与回归测试框架,输出量化评估报告。
5. 线上稳定性:推理服务监控、告警、异常排查与性能回归治理。
6. 跨团队协作:对接算法团队,理解模型结构、算子特性与精度约束,将工程约束前置反馈到模型设计与训练环节。
包括英文材料
推理引擎+
TensorRT+
vLLM+
Triton Inference Server+
SGLang+
CUDA+
NCCL+
大模型+
还有更多 •••