logo of mihoyo

米哈游推理平台研发工程师(网关 & 流量方向)

社招全职3年以上程序&技术类地点:上海状态:招聘

任职要求


1. 本科及以上,计算机相关专业;3 年及以上后端/平台研发经验,有网关、流量治理或分布式系统经验。
2. 精通 Go / Rust / C++ 其一(熟悉另一门更佳),具备高并发网络服务研发、性能优化与线上问题处理经验。
3. 熟悉服务治理与网关核心能力与原理:L7/L4 转发、LB、限流、熔断、降级、超时重试、连接池/断路器、流式请求治理、流量回放等。
4. 熟悉可观测性体系:Prometheus/GrafanaOpenTelemetry/Jaeger 等;能设计指标与 tracing 规范并落地。
5. 熟悉 Kubernetes 与云原生生态:Ingress/Gateway API、Service/Endpoint、发布回滚、多集群治理与HPA等。
6. 具备良好的系统设计与跨团队协作能力,能将能力产品化/平台化。

加分项
1. 有网关/数据面相关经验:Envoy / Traefik / Higress …
登录查看完整任职要求
微信扫码,1秒登录

工作职责


1. 负责大模型推理平台(含多模态)与传统网关场景的统一流量接入与调度体系建设:入口网关到推理后端的路由、转发、灰度、熔断、降级与回滚策略落地。
2. 设计与实现面向推理业务的流量调度算法:按模型/租户/优先级/成本/延迟目标进行动态路由与容量分配,持续优化 TTFT / TPOT / P99 等指标。
3. 建设流量治理能力:限流(全局/分层/配额)、并发控制、排队与背压、超时与重试、连接管理、长连接与流式请求治理、突发保护与弹性策略。
4. 完善可观测性与问题定位:全链路 tracing、结构化日志、指标与告警体系;建设压测/回放/故障演练能力,提升定位与恢复效率。
5. 推进平台化与工程化:沉淀配置/策略编排/发布体系,保障多集群、多环境的一致性、稳定性与安全合规。
6. 持续跟进业界先进网关与推理流量技术/算法,推动在生产环境落地与迭代。
包括英文材料
分布式系统+
Go+
Rust+
C+++
高并发+
服务治理+
Prometheus+
Grafana+
OpenTelemetry+
Jaeger+
还有更多 •••
相关职位

logo of mihoyo
社招3年以上程序&技术类

1. 负责大模型推理平台(含多模态)与传统网关场景的统一流量接入与调度体系建设:入口网关到推理后端的路由、转发、灰度、熔断、降级与回滚策略落地。 2. 设计与实现面向推理业务的流量调度算法:按模型/租户/优先级/成本/延迟目标进行动态路由与容量分配,持续优化 TTFT / TPOT / P99 等指标。 3. 建设流量治理能力:限流(全局/分层/配额)、并发控制、排队与背压、超时与重试、连接管理、长连接与流式请求治理、突发保护与弹性策略。 4. 完善可观测性与问题定位:全链路 tracing、结构化日志、指标与告警体系;建设压测/回放/故障演练能力,提升定位与恢复效率。 5. 推进平台化与工程化:沉淀配置/策略编排/发布体系,保障多集群、多环境的一致性、稳定性与安全合规。 6. 持续跟进业界先进网关与推理流量技术/算法,推动在生产环境落地与迭代。

北京
logo of antgroup
社招3年以上技术类-开发

我们是蚂蚁集团网络技术团队,为蚂蚁集团全站提供通智一体、稳定高效的网络基础设施产品、平台和服务。 ● 负责推理网关核心能力设计和开发; ● 通过创新的流量调度算法减少推理成本;

更新于 2025-04-03北京|杭州|成都
logo of bytedance
社招1年以上A221693A

1、风险定义:完善标准中心平台,负责定义和维护各业务风险标签体系,并基于标准审核要素、案例库构建治理大模型的风险知识库平台; 2、处置决策:完善处置策略平台,基于处置计次与其他实时&离线特征,通过策略编排多个处置决策节点,输出匹配治理预期的处置能力组合,并推动执行;构建健康分区间节点处置策略; 3、处置执行:构建处置能力网关,接受处置决策的处置能力组合,联合基础产品保障处置成功执行并搭配对账能力保障处置效果达成;负责账号、额度管控、状态处置和校验网关等通用能力的建设和运维; 4、大模型应用:大模型生产处置动作脚本代码,AI生产动作对账脚本代码,AI治理处置中心Oncall和报警。

更新于 2025-04-18杭州
logo of xiaohongshu
实习大模型

1、参与小红书万亿级Token量MaaS系统构建,包括但不限于大模型智能网关、大模型弹性伸缩、推理系统优化等方向,共同打造国内领先的大模型MaaS系统; 2、探索负载感知的推理系统流量调度算法,如基于Prefix Cache命中率调度、基于P/D分离的流量调度、基于KVCache使用率、推理排队负载感知的流量调度、长上下文请求调度优化等,持续提升MaaS系统的稳定性、成本效益; 3、探索并跟进业界开源SOTA模型,如Qwen系列、DeepSeek系列,多维度评估模型效果并建立相关的准入体系,及时上架到MaaS系统; 4、参与MaaS系统的国产卡适配,如华为910C、阿里PPU等; 5、参与攻克大规模分布式推理系统带来的复杂挑战,通过弹性调度、容量规划、链路压测等手段提升系统健壮性,确保平台能够弹性扩展,支撑业务的飞速增长。

更新于 2025-08-05北京|上海