米哈游推理平台研发工程师(网关与流量向)
任职要求
1. 本科及以上,计算机相关专业;3 年及以上后端/平台研发经验,有网关、流量治理或分布式系统经验。 2. 精通 Go / Rust / C++ 其一(熟悉另一门更佳),具备高并发网络服务研发、性能优化与线上问题处理经验。 3. 熟悉服务治理与网关核心能力与原理:L7/L4 转发、LB、限流、熔断、降级、超时重试、连接池/断路器、流式请求治理、流量回放等。 4. 熟悉可观测性体系:Prometheus/Grafana、OpenTelemetry/Jaeger 等;能设计指标与 tracing 规范并落地。 5. 熟悉 Kubernetes 与云原生生态:Ingress/Gateway API、Service/Endpoint、发布回滚、多集群治理与HPA等。 6. 具备良好的系统设计与跨团队协作能力,能将能力产品化/平台化。 加分项 1. 有网关/数据面相关经验:Envoy / Traefik / Higress …
工作职责
1. 负责大模型推理平台(含多模态)与传统网关场景的统一流量接入与调度体系建设:入口网关到推理后端的路由、转发、灰度、熔断、降级与回滚策略落地。 2. 设计与实现面向推理业务的流量调度算法:按模型/租户/优先级/成本/延迟目标进行动态路由与容量分配,持续优化 TTFT / TPOT / P99 等指标。 3. 建设流量治理能力:限流(全局/分层/配额)、并发控制、排队与背压、超时与重试、连接管理、长连接与流式请求治理、突发保护与弹性策略。 4. 完善可观测性与问题定位:全链路 tracing、结构化日志、指标与告警体系;建设压测/回放/故障演练能力,提升定位与恢复效率。 5. 推进平台化与工程化:沉淀配置/策略编排/发布体系,保障多集群、多环境的一致性、稳定性与安全合规。 6. 持续跟进业界先进网关与推理流量技术/算法,推动在生产环境落地与迭代。
1. 负责大模型推理平台(含多模态)与传统网关场景的统一流量接入与调度体系建设:入口网关到推理后端的路由、转发、灰度、熔断、降级与回滚策略落地。 2. 设计与实现面向推理业务的流量调度算法:按模型/租户/优先级/成本/延迟目标进行动态路由与容量分配,持续优化 TTFT / TPOT / P99 等指标。 3. 建设流量治理能力:限流(全局/分层/配额)、并发控制、排队与背压、超时与重试、连接管理、长连接与流式请求治理、突发保护与弹性策略。 4. 完善可观测性与问题定位:全链路 tracing、结构化日志、指标与告警体系;建设压测/回放/故障演练能力,提升定位与恢复效率。 5. 推进平台化与工程化:沉淀配置/策略编排/发布体系,保障多集群、多环境的一致性、稳定性与安全合规。 6. 持续跟进业界先进网关与推理流量技术/算法,推动在生产环境落地与迭代。
我们是小红书中台大模型 Infra 团队,专注打造领先易用的「AI 大模型全链路基础设施」!团队深耕大模型「数-训-压-推-评」技术闭环,在大模型训练加速、模型压缩、推理优化、部署提效等方向积累了深厚的技术优势,基于 RedAccel 训练引擎、RedSlim 压缩工具、RedServing 推理部署引擎、DirectLLM 大模型 API 服务、QuickSilver 大模型生产部署平台等核心产品,持续赋能社区、商业、交易、安全、数平、研效等多个核心业务,实现 AI 技术高效落地! DirectLLM是小红书内部面向各业务场景建设的大模型API服务产品,通过标准化API接口提供LLM/MLLM等大模型推理服务,致力于为AI应用开发者提供品类丰富、数量众多的模型选择,并通过API接口为其提供开箱即用、能力卓越、成本经济的模型服务,各领域模型的能力均可通过统一的API和SDK来实现被不同业务系统集成。 核心职责 1. 参与小红书万亿级Token量推理系统构建,包括但不限于大模型智能网关、大模型弹性伸缩、推理系统优化等方向,共同打造国内领先的大模型MaaS服务; 2. 探索负载感知的推理系统流量调度算法,如基于Prefix Cache命中率调度、基于P/D分离的流量调度、基于KVCache使用率、推理排队负载感知的流量调度、长上下文请求调度优化等,持续提升MaaS系统的稳定性、成本效益; 3. 探索并跟进业界开源SOTA模型,如Qwen系列、DeepSeek系列,多维度评估模型效果并建立相关的准入体系,及时上架到MaaS系统; 4. 参与MaaS系统的国产卡适配与异构算力统一调度体系,如华为910C、阿里PPU、昆仑芯P800; 5. 参与攻克大规模分布式推理系统带来的复杂挑战,通过弹性调度、容量规划、链路压测等手段提升系统健壮性,确保平台能够弹性扩展,支撑业务的飞速增长。
负责阿里集团、阿里云可观测数据处理基础设施建设,打造日增百PB级数据的实时数据分析平台。通过实时采集、索引、存储、压缩等技术,实时处理来自千万设备的海量日志数据,并针对AI应用场景进行特定优化,提供智能、自动化数据分析服务。 加入该岗位,您将有机会在国内超大规模的实时日志平台上,构建各种面向各类AI应用场景的数据存储和处理平台,打造新一代的AI基础设施。 1. 参与阿里云战略级产品SLS研发,参与面向AI应用场景的多模态数据采集、处理、检索分析等功能开发与设计; 2. 参与数据飞轮的建设,研发高质量数据集的清洗和存储、检索系统; 3. 参与Agent数据反馈回路建设,打磨Agent质量; 4. 参与建设Agent数据基座,研发稳定可靠的Agent运行时数据基础设施。
1. 设计并实现高性能AI原生网关。构建低延迟、高并发的API网关系统,支持多模态、多协议接入,为国内及全球客户提供灵活、安全、可扩展的流量接入方案,提供完整的数据面控制与可观测能力。 2. 打造智能推理调度与资源管理系统。设计并实现面向复杂分布式推理场景的请求调度和资源调度系统,结合动态负载特征与异构硬件资源,持续优化请求分发策略;建设Serverless化资源调度架构,实现资源的弹性伸缩与极致利用率提升。 3. 构建先进的MLOps平台能力。深度优化模型服务的CI/CD流程,推动算法研发到生产部署的自动化与标准化;实现模型版本管理、灰度发布、监控告警、性能分析等全生命周期管理能力,提升迭代效率与系统稳定性。