米哈游推理平台研发工程师（网关与流量向）

社招全职3年以上程序&技术类地点：北京状态：招聘

扫码手机上打开

任职要求

1. 本科及以上，计算机相关专业；3 年及以上后端/平台研发经验，有网关、流量治理或分布式系统经验。
2. 精通 Go / Rust / C++ 其一（熟悉另一门更佳），具备高并发网络服务研发、性能优化与线上问题处理经验。
3. 熟悉服务治理与网关核心能力与原理：L7/L4 转发、LB、限流、熔断、降级、超时重试、连接池/断路器、流式请求治理、流量回放等。
4. 熟悉可观测性体系：Prometheus/Grafana、OpenTelemetry/Jaeger 等；能设计指标与 tracing 规范并落地。
5. 熟悉 Kubernetes 与云原生生态：Ingress/Gateway API、Service/Endpoint、发布回滚、多集群治理与HPA等。
6. 具备良好的系统设计与跨团队协作能力，能将能力产品化/平台化。

加分项
1. 有网关/数据面相关经验：Envoy / Traefik / Higress …

登录查看完整任职要求

微信扫码，1秒登录

工作职责

1. 负责大模型推理平台（含多模态）与传统网关场景的统一流量接入与调度体系建设：入口网关到推理后端的路由、转发、灰度、熔断、降级与回滚策略落地。
2. 设计与实现面向推理业务的流量调度算法：按模型/租户/优先级/成本/延迟目标进行动态路由与容量分配，持续优化 TTFT / TPOT / P99 等指标。
3. 建设流量治理能力：限流（全局/分层/配额）、并发控制、排队与背压、超时与重试、连接管理、长连接与流式请求治理、突发保护与弹性策略。
4. 完善可观测性与问题定位：全链路 tracing、结构化日志、指标与告警体系；建设压测/回放/故障演练能力，提升定位与恢复效率。
5. 推进平台化与工程化：沉淀配置/策略编排/发布体系，保障多集群、多环境的一致性、稳定性与安全合规。
6. 持续跟进业界先进网关与推理流量技术/算法，推动在生产环境落地与迭代。

📮 投递简历 ✨AI模拟面试

难度：

包括英文材料

分布式系统+

Go+

Rust+

C+++

高并发+

服务治理+

Prometheus+

Grafana+

OpenTelemetry+

Jaeger+

还有更多 •••

登录查看完整学习资料

相关职位

推理平台研发工程师（网关 & 流量方向）

社招3年以上程序&技术类

1. 负责大模型推理平台（含多模态）与传统网关场景的统一流量接入与调度体系建设：入口网关到推理后端的路由、转发、灰度、熔断、降级与回滚策略落地。 2. 设计与实现面向推理业务的流量调度算法：按模型/租户/优先级/成本/延迟目标进行动态路由与容量分配，持续优化 TTFT / TPOT / P99 等指标。 3. 建设流量治理能力：限流（全局/分层/配额）、并发控制、排队与背压、超时与重试、连接管理、长连接与流式请求治理、突发保护与弹性策略。 4. 完善可观测性与问题定位：全链路 tracing、结构化日志、指标与告警体系；建设压测/回放/故障演练能力，提升定位与恢复效率。 5. 推进平台化与工程化：沉淀配置/策略编排/发布体系，保障多集群、多环境的一致性、稳定性与安全合规。 6. 持续跟进业界先进网关与推理流量技术/算法，推动在生产环境落地与迭代。

上海

大模型推理服务(MaaS)研发工程师/专家

社招引擎

我们是小红书中台大模型 Infra 团队，专注打造领先易用的「AI 大模型全链路基础设施」！团队深耕大模型「数-训-压-推-评」技术闭环，在大模型训练加速、模型压缩、推理优化、部署提效等方向积累了深厚的技术优势，基于 RedAccel 训练引擎、RedSlim 压缩工具、RedServing 推理部署引擎、DirectLLM 大模型 API 服务、QuickSilver 大模型生产部署平台等核心产品，持续赋能社区、商业、交易、安全、数平、研效等多个核心业务，实现 AI 技术高效落地！ DirectLLM是小红书内部面向各业务场景建设的大模型API服务产品，通过标准化API接口提供LLM/MLLM等大模型推理服务，致力于为AI应用开发者提供品类丰富、数量众多的模型选择，并通过API接口为其提供开箱即用、能力卓越、成本经济的模型服务，各领域模型的能力均可通过统一的API和SDK来实现被不同业务系统集成。核心职责 1. 参与小红书万亿级Token量推理系统构建，包括但不限于大模型智能网关、大模型弹性伸缩、推理系统优化等方向，共同打造国内领先的大模型MaaS服务； 2. 探索负载感知的推理系统流量调度算法，如基于Prefix Cache命中率调度、基于P/D分离的流量调度、基于KVCache使用率、推理排队负载感知的流量调度、长上下文请求调度优化等，持续提升MaaS系统的稳定性、成本效益； 3. 探索并跟进业界开源SOTA模型，如Qwen系列、DeepSeek系列，多维度评估模型效果并建立相关的准入体系，及时上架到MaaS系统； 4. 参与MaaS系统的国产卡适配与异构算力统一调度体系，如华为910C、阿里PPU、昆仑芯P800； 5. 参与攻克大规模分布式推理系统带来的复杂挑战，通过弹性调度、容量规划、链路压测等手段提升系统健壮性，确保平台能够弹性扩展，支撑业务的飞速增长。

更新于 2026-03-20北京|上海

阿里云智能-AI Infra 高级研发工程师-杭州

社招3年以上云智能集团

负责阿里集团、阿里云可观测数据处理基础设施建设，打造日增百PB级数据的实时数据分析平台。通过实时采集、索引、存储、压缩等技术，实时处理来自千万设备的海量日志数据，并针对AI应用场景进行特定优化，提供智能、自动化数据分析服务。加入该岗位，您将有机会在国内超大规模的实时日志平台上，构建各种面向各类AI应用场景的数据存储和处理平台，打造新一代的AI基础设施。 1. 参与阿里云战略级产品SLS研发，参与面向AI应用场景的多模态数据采集、处理、检索分析等功能开发与设计； 2. 参与数据飞轮的建设，研发高质量数据集的清洗和存储、检索系统； 3. 参与Agent数据反馈回路建设，打磨Agent质量； 4. 参与建设Agent数据基座，研发稳定可靠的Agent运行时数据基础设施。

更新于 2026-02-11杭州|上海

阿里云智能-百炼平台工程技术专家/高级工程师-北京/杭州

社招3年以上云智能集团

1. 设计并实现高性能AI原生网关。构建低延迟、高并发的API网关系统，支持多模态、多协议接入，为国内及全球客户提供灵活、安全、可扩展的流量接入方案，提供完整的数据面控制与可观测能力。 2. 打造智能推理调度与资源管理系统。设计并实现面向复杂分布式推理场景的请求调度和资源调度系统，结合动态负载特征与异构硬件资源，持续优化请求分发策略；建设Serverless化资源调度架构，实现资源的弹性伸缩与极致利用率提升。 3. 构建先进的MLOps平台能力。深度优化模型服务的CI/CD流程，推动算法研发到生产部署的自动化与标准化；实现模型版本管理、灰度发布、监控告警、性能分析等全生命周期管理能力，提升迭代效率与系统稳定性。

更新于 2026-04-08北京|杭州