米哈游推理平台研发工程师
任职要求
岗位要求: 1. 计算机相关专业,本科及以上学历,3-5 年分布式系统或AI推理相关工作经验 2. 具备丰富的推理服务性能优化经验:KVCache 管理、调度策略优化、PD 分离、模型量化、模型并行等 3. 熟练使用 Kubernetes 进行容器化部署,了解 Volcano等GPU资源调度系统 4. 掌握 Go/Python 等编程语言,具备良好的代码规范和系统设计能力 5. 具备推理链路端到端性能分析与故障排查能力,能够在高并发、大规模场景下保障服务稳定运行 6. 熟悉至少一种大模型推理主流框架(vLLM、SGLang、Te…
工作职责
岗位职责: 1. 负责大模型推理平台的开发、维护与性能优化,保障服务高可用性和高性能运行 2. 对大模型 KVCache 集群进行开发、维护与性能调优,解决大规模并发推理内存瓶颈 3. 管理推理服务的计算资源、流量及任务调度,优化集群资源利用率,降低推理成本 4. 建立推理服务监控告警体系,及时发现和解决性能异常和系统故障 5. 参与推理服务架构设计,支持多模态模型和不同规模模型的推理需求
1. 负责大模型推理平台(含多模态)与传统网关场景的统一流量接入与调度体系建设:入口网关到推理后端的路由、转发、灰度、熔断、降级与回滚策略落地。 2. 设计与实现面向推理业务的流量调度算法:按模型/租户/优先级/成本/延迟目标进行动态路由与容量分配,持续优化 TTFT / TPOT / P99 等指标。 3. 建设流量治理能力:限流(全局/分层/配额)、并发控制、排队与背压、超时与重试、连接管理、长连接与流式请求治理、突发保护与弹性策略。 4. 完善可观测性与问题定位:全链路 tracing、结构化日志、指标与告警体系;建设压测/回放/故障演练能力,提升定位与恢复效率。 5. 推进平台化与工程化:沉淀配置/策略编排/发布体系,保障多集群、多环境的一致性、稳定性与安全合规。 6. 持续跟进业界先进网关与推理流量技术/算法,推动在生产环境落地与迭代。
1. 负责大模型推理平台(含多模态)与传统网关场景的统一流量接入与调度体系建设:入口网关到推理后端的路由、转发、灰度、熔断、降级与回滚策略落地。 2. 设计与实现面向推理业务的流量调度算法:按模型/租户/优先级/成本/延迟目标进行动态路由与容量分配,持续优化 TTFT / TPOT / P99 等指标。 3. 建设流量治理能力:限流(全局/分层/配额)、并发控制、排队与背压、超时与重试、连接管理、长连接与流式请求治理、突发保护与弹性策略。 4. 完善可观测性与问题定位:全链路 tracing、结构化日志、指标与告警体系;建设压测/回放/故障演练能力,提升定位与恢复效率。 5. 推进平台化与工程化:沉淀配置/策略编排/发布体系,保障多集群、多环境的一致性、稳定性与安全合规。 6. 持续跟进业界先进网关与推理流量技术/算法,推动在生产环境落地与迭代。
1.建设一站式的 AI 推理平台,链接模型训练、部署编排到应用分发整个过程; 2.通过部署编排、资源调度、模型优化等手段,优化推理成本,提供极致低成本的推理平台; 3.负责 AI 推理产品后端架构设计,参与需求分析、功能实现与性能优化,支持高并发、大数据场景下的稳定运行; 4.关注 AI 与大模型领域技术发展趋势,并灵活应用于项目中。
团队介绍 团队长期深耕AI算法研发、AI基础架构建设、AI服务应用打造,负责从AI算法研发、性能优化加速、工程服务化与云端部署、服务调度与资源优化、到服务管理与运维在内的完整AI落地运用流程,覆盖线上数据到模型训练、训练模型到线上服务的闭环。近期重点聚焦AIGC在公司内容团队和产研团队的使用,通过大模型的能力,持续推动爱奇艺在内容创作、生产、分发、以及用户体验上的创新、优质、高效、自动化与智能化。欢迎愿意长期深耕AI领域的同学加入我们! 工作职责 - 参与AI工程服务化工作,将算法团队研发的AI能力初始原型进行服务化,落地成为业务团队线上稳定可用的AI应用 - 参与大模型训练平台、推理平台建设,包括但不限于分布式训练框架调优、推理引擎优化、模型量化及加速等 - 参与AI基础设施建设,包括计算资源管理、网络架构设计、存储系统优化等,提升资源利用率,降低大模型研发与应用成本 - AI领域最新进展的技术调研、引入改造、原型设计与开发等