小红书大模型推理服务(MaaS)研发工程师/专家

社招全职引擎2025-10-18地点：北京 | 上海状态：招聘

扫码手机上打开

任职要求

任职资格：
1、优秀的代码能力、数据结构和基础算法功底，熟悉C++/Golang/Python开发；
2、有大规模分布式系统实践经验，擅长对现实问题进行建模并运用解决
3、熟悉大模型的基本原理和常见应用场景，例如 Transformer、StableDiffusion、ViT等，并…

登录查看完整任职要求

微信扫码，1秒登录

工作职责

我们是小红书中台大模型 Infra 团队，专注打造领先易用的「AI 大模型全链路基础设施」！团队深耕大模型「数-训-压-推-评」技术闭环，在大模型训练加速、模型压缩、推理优化、部署提效等方向积累了深厚的技术优势，基于 RedAccel 训练引擎、RedSlim 压缩工具、RedServing 推理部署引擎、DirectLLM 大模型 API 服务、QuickSilver 大模型生产部署平台等核心产品，持续赋能社区、商业、交易、安全、数平、研效等多个核心业务，实现 AI 技术高效落地！

DirectLLM是小红书内部面向各业务场景建设的大模型API服务产品，通过标准化API接口提供LLM/MLLM等大模型推理服务，致力于为AI应用开发者提供品类丰富、数量众多的模型选择，并通过API接口为其提供开箱即用、能力卓越、成本经济的模型服务，各领域模型的能力均可通过统一的API和SDK来实现被不同业务系统集成。
工作职责：
1、参与/负责大模型推理服务平台（MaaS）的架构设计、系统研发、产品研发等工作；
2、深入参与面向大模型场景的请求调度、异构资源调度、引擎优化等核心工作，实现千亿级Token并行推理平台；
3、为内部产品线提供解决方案，协助公司内用户解决大模型应用过程中业务在平台上的使用问题。

📮 投递简历 ✨AI模拟面试

难度：

包括英文材料

数据结构+

算法+

C+++

Go+

Python+

还有更多 •••

登录查看完整学习资料

相关职位

大模型推理服务（MaaS方向）研发工程师/专家

社招引擎

DirectLLM是小红书内部面向各业务场景建设的大模型API服务产品，通过标准化API接口提供LLM/MLLM等大模型推理服务，致力于为AI应用开发者提供品类丰富、数量众多的模型选择，并通过API接口为其提供开箱即用、能力卓越、成本经济的模型服务，各领域模型的能力均可通过统一的API和SDK来实现被不同业务系统集成。工作职责： 1、参与/负责大模型推理服务平台（MaaS）的架构设计、系统研发、产品研发等工作； 2、深入参与面向大模型场景的请求调度、异构资源调度、引擎优化等核心工作，实现千亿级Token并行推理平台； 3、为内部产品线提供解决方案，协助公司内用户解决大模型应用过程中业务在平台上的使用问题。

北京|上海|深圳

大模型推理系统MaaS研发工程师（实习）

实习大模型

1、参与小红书万亿级Token量MaaS系统构建，包括但不限于大模型智能网关、大模型弹性伸缩、推理系统优化等方向，共同打造国内领先的大模型MaaS系统； 2、探索负载感知的推理系统流量调度算法，如基于Prefix Cache命中率调度、基于P/D分离的流量调度、基于KVCache使用率、推理排队负载感知的流量调度、长上下文请求调度优化等，持续提升MaaS系统的稳定性、成本效益； 3、探索并跟进业界开源SOTA模型，如Qwen系列、DeepSeek系列，多维度评估模型效果并建立相关的准入体系，及时上架到MaaS系统； 4、参与MaaS系统的国产卡适配，如华为910C、阿里PPU等； 5、参与攻克大规模分布式推理系统带来的复杂挑战，通过弹性调度、容量规划、链路压测等手段提升系统健壮性，确保平台能够弹性扩展，支撑业务的飞速增长。

更新于 2025-08-05北京|上海

推理平台研发工程师（网关与流量向）

社招3年以上程序&技术类

1. 负责大模型推理平台（含多模态）与传统网关场景的统一流量接入与调度体系建设：入口网关到推理后端的路由、转发、灰度、熔断、降级与回滚策略落地。 2. 设计与实现面向推理业务的流量调度算法：按模型/租户/优先级/成本/延迟目标进行动态路由与容量分配，持续优化 TTFT / TPOT / P99 等指标。 3. 建设流量治理能力：限流（全局/分层/配额）、并发控制、排队与背压、超时与重试、连接管理、长连接与流式请求治理、突发保护与弹性策略。 4. 完善可观测性与问题定位：全链路 tracing、结构化日志、指标与告警体系；建设压测/回放/故障演练能力，提升定位与恢复效率。 5. 推进平台化与工程化：沉淀配置/策略编排/发布体系，保障多集群、多环境的一致性、稳定性与安全合规。 6. 持续跟进业界先进网关与推理流量技术/算法，推动在生产环境落地与迭代。

北京

推理平台研发工程师（网关 & 流量方向）

社招3年以上程序&技术类

上海