虎牙AI Infra 工程师（推理集群方向）

社招全职MJ0043662026-04-24地点：广州状态：招聘

扫码手机上打开

任职要求

* 计算机相关专业，本科及以上学历
* 熟练掌握至少一门语言：C++ / Python / Go
* 熟悉 Linux 系统及网络基础
核心能力： 熟悉 AI 推理框架或引擎，如：
  * PyTorch / TensorFlow
  * ONNX Runtime
* 熟悉 GPU 架构及 CUDA 编程，了解显存管理和并行计算
* 有大规模分布式系统或集群经验（如 Kubernetes）
* 熟悉模型部署流程（训练 → 导出 → 推理服务）
加分项
* 有 LLM…

登录查看完整任职要求

微信扫码，1秒登录

工作职责

职位概述：负责公司大规模 AI 推理集群的设计、建设与优化，支撑模型在线服务（LLM / CV / 推荐等）的高性能、低延迟与高可用运行。你将深度参与从模型部署到系统调优的全链路基础设施建设。

* 负责 AI 推理集群（GPU/CPU）的架构设计与落地，包括资源调度、服务部署、弹性扩缩容等
* 搭建和维护模型推理服务框架（如 SGlang、TensorRT、vLLM 等）
* 优化推理性能（延迟、吞吐、成本），包括：
  * 模型量化（INT8/FP16/FP8）
  * Kernel 优化 / CUDA 调优
  * Batch 策略 / KV Cache 优化（LLM场景）
* 构建高可用推理服务体系（灰度发布、A/B、自动回滚）
* 设计和实现推理调度系统（多模型、多租户、优先级控制）
* 与算法团队协作，将模型高效部署上线并持续优化
* 构建监控与观测体系（QPS、Latency、GPU 利用率等）
* 推进推理成本优化（算力利用率、Spot实例、混部等）

📮 投递简历 ✨AI模拟面试

难度：

包括英文材料

学历+

C+++

Python+

Go+

Linux+

PyTorch+

TensorFlow+

还有更多 •••

登录查看完整学习资料