logo of mihoyo

米哈游推理平台研发工程师

社招全职3-5年程序&技术类地点:上海 | 北京状态:招聘

任职要求


岗位要求:
1. 计算机相关专业,本科及以上学历,3-5 年分布式系统或AI推理相关工作经验
2. 具备丰富的推理服务性能优化经验:KVCache 管理、调度策略优化、PD 分离、模型量化、模型并行等
3. 熟练使用 Kubernetes 进行容器化部署,了解 Volcano等GPU资源调度系统
4. 掌握 Go/Python 等编程语言,具备良好的代码规范和系统设计能力
5. 具备推理链路端到端性能分析与故障排查能力,能够在高并发、大规模场景下保障服务稳定运行
6. 熟悉至少一种大模型推理主流框架(vLLM、SGLang、Te…
登录查看完整任职要求
微信扫码,1秒登录

工作职责


岗位职责:
1. 负责大模型推理平台的开发、维护与性能优化,保障服务高可用性和高性能运行
2. 对大模型 KVCache 集群进行开发、维护与性能调优,解决大规模并发推理内存瓶颈
3. 管理推理服务的计算资源、流量及任务调度,优化集群资源利用率,降低推理成本
4. 建立推理服务监控告警体系,及时发现和解决性能异常和系统故障
5. 参与推理服务架构设计,支持多模态模型和不同规模模型的推理需求
包括英文材料
学历+
分布式系统+
Kubernetes+
Volcano+
Go+
Python+
系统设计+
还有更多 •••
相关职位

logo of mihoyo
社招3年以上程序&技术类

1. 负责大模型推理平台(含多模态)与传统网关场景的统一流量接入与调度体系建设:入口网关到推理后端的路由、转发、灰度、熔断、降级与回滚策略落地。 2. 设计与实现面向推理业务的流量调度算法:按模型/租户/优先级/成本/延迟目标进行动态路由与容量分配,持续优化 TTFT / TPOT / P99 等指标。 3. 建设流量治理能力:限流(全局/分层/配额)、并发控制、排队与背压、超时与重试、连接管理、长连接与流式请求治理、突发保护与弹性策略。 4. 完善可观测性与问题定位:全链路 tracing、结构化日志、指标与告警体系;建设压测/回放/故障演练能力,提升定位与恢复效率。 5. 推进平台化与工程化:沉淀配置/策略编排/发布体系,保障多集群、多环境的一致性、稳定性与安全合规。 6. 持续跟进业界先进网关与推理流量技术/算法,推动在生产环境落地与迭代。

北京
logo of mihoyo
社招3年以上程序&技术类

1. 负责大模型推理平台(含多模态)与传统网关场景的统一流量接入与调度体系建设:入口网关到推理后端的路由、转发、灰度、熔断、降级与回滚策略落地。 2. 设计与实现面向推理业务的流量调度算法:按模型/租户/优先级/成本/延迟目标进行动态路由与容量分配,持续优化 TTFT / TPOT / P99 等指标。 3. 建设流量治理能力:限流(全局/分层/配额)、并发控制、排队与背压、超时与重试、连接管理、长连接与流式请求治理、突发保护与弹性策略。 4. 完善可观测性与问题定位:全链路 tracing、结构化日志、指标与告警体系;建设压测/回放/故障演练能力,提升定位与恢复效率。 5. 推进平台化与工程化:沉淀配置/策略编排/发布体系,保障多集群、多环境的一致性、稳定性与安全合规。 6. 持续跟进业界先进网关与推理流量技术/算法,推动在生产环境落地与迭代。

上海
logo of tencent
社招3年以上边缘平台及CDN

1.建设一站式的 AI 推理平台,链接模型训练、部署编排到应用分发整个过程; 2.通过部署编排、资源调度、模型优化等手段,优化推理成本,提供极致低成本的推理平台; 3.负责 AI 推理产品后端架构设计,参与需求分析、功能实现与性能优化,支持高并发、大数据场景下的稳定运行; 4.关注 AI 与大模型领域技术发展趋势,并灵活应用于项目中。

更新于 2025-09-18深圳
logo of mihoyo
校招程序&技术类

职位描述: 负责大模型训练推理平台后台模块的开发、优化及运维 核心职责: 1、理解算法及AI Infra对训练推理平台的需求 2、设计及落地实现对应的模块 3、优化模块性能

上海