logo of huya

虎牙AI Infra 工程师(推理集群方向)

社招全职MJ004366地点:广州状态:招聘

任职要求


* 计算机相关专业,本科及以上学历
* 熟练掌握至少一门语言:C++ / Python / Go
* 熟悉 Linux 系统及网络基础
核心能力: 熟悉 AI 推理框架或引擎,如:
  * PyTorch / TensorFlow
  * ONNX Runtime
* 熟悉 GPU 架构及 CUDA 编程,了解显存管理和并行计算
* 有大规模分布式系统或集群经验(如 Kubernetes)
* 熟悉模型部署流程(训练 → 导出 → 推理服务)
加分项
* 有 LLM…
登录查看完整任职要求
微信扫码,1秒登录

工作职责


职位概述:负责公司大规模 AI 推理集群的设计、建设与优化,支撑模型在线服务(LLM / CV / 推荐等)的高性能、低延迟与高可用运行。你将深度参与从模型部署到系统调优的全链路基础设施建设。

* 负责 AI 推理集群(GPU/CPU)的架构设计与落地,包括资源调度、服务部署、弹性扩缩容等
* 搭建和维护模型推理服务框架(如 SGlang、TensorRT、vLLM 等)
* 优化推理性能(延迟、吞吐、成本),包括:
  * 模型量化(INT8/FP16/FP8)
  * Kernel 优化 / CUDA 调优
  * Batch 策略 / KV Cache 优化(LLM场景)
* 构建高可用推理服务体系(灰度发布、A/B、自动回滚)
* 设计和实现推理调度系统(多模型、多租户、优先级控制)
* 与算法团队协作,将模型高效部署上线并持续优化
* 构建监控与观测体系(QPS、Latency、GPU 利用率等)
* 推进推理成本优化(算力利用率、Spot实例、混部等)
包括英文材料
学历+
C+++
Python+
Go+
Linux+
PyTorch+
TensorFlow+
还有更多 •••