小红书AI大模型推理系统研发工程师（实习）

实习兼职大模型2025-08-22地点：北京 | 上海状态：招聘

扫码手机上打开

任职要求

1、熟悉业界主流Dense、MOE大模型架构及主要特点，能识别出模型效果及主要使用场景，支持用户大模型的选型和使用需求；
2、了解至少一种大模型服务推理部署框架，如vLLM、SGLang、Dynamo等，并有过大模型服务部署的经验；
3、优秀的代码能力、数据结构和基础算法功底，熟悉C++/Python开发，熟悉 Linux/Git …

登录查看完整任职要求

微信扫码，1秒登录

工作职责

1、参与小红书万亿级Token量推理系统构建，包括但不限于大模型智能网关、大模型弹性伸缩、推理系统优化等方向，共同打造国内领先的大模型推理系统；
2、探索负载感知的推理系统流量调度算法，如基于Prefix Cache命中率调度、基于P/D分离的流量调度、基于KVCache使用率、推理排队负载感知的流量调度、长上下文请求调度优化等，持续提升MaaS系统的稳定性、成本效益；
3、探索并跟进业界开源SOTA模型，如Qwen系列、DeepSeek系列，多维度评估模型效果并建立相关的准入体系，及时上架到MaaS系统；
4、参与MaaS系统的国产卡适配，如华为910C、阿里PPU等；
5、参与攻克大规模分布式推理系统带来的复杂挑战，通过弹性调度、容量规划、链路压测等手段提升系统健壮性，确保平台能够弹性扩展，支撑业务的飞速增长。

📮 投递简历 ✨AI模拟面试

难度：

包括英文材料

大模型+

vLLM+

SGLang+

数据结构+

还有更多 •••

登录查看完整学习资料

相关职位

AI大模型推理系统研发工程师实习生

实习引擎

核心职责参与小红书万亿级Token量推理系统构建，包括但不限于大模型智能网关、大模型弹性伸缩、推理系统优化等方向，共同打造国内领先的大模型推理系统；探索负载感知的推理系统流量调度算法，如基于Prefix Cache命中率调度、基于P/D分离的流量调度、基于KVCache使用率、推理排队负载感知的流量调度、长上下文请求调度优化等，持续提升MaaS系统的稳定性、成本效益；探索并跟进业界开源SOTA模型，如Qwen系列、DeepSeek系列，多维度评估模型效果并建立相关的准入体系，及时上架到MaaS系统；参与MaaS系统的国产卡适配，如华为910C、阿里PPU等；参与攻克大规模分布式推理系统带来的复杂挑战，通过弹性调度、容量规划、链路压测等手段提升系统健壮性，确保平台能够弹性扩展，支撑业务的飞速增长。

更新于 2025-11-25北京|上海

大模型推理系统MaaS研发工程师（实习）

实习大模型

1、参与小红书万亿级Token量MaaS系统构建，包括但不限于大模型智能网关、大模型弹性伸缩、推理系统优化等方向，共同打造国内领先的大模型MaaS系统； 2、探索负载感知的推理系统流量调度算法，如基于Prefix Cache命中率调度、基于P/D分离的流量调度、基于KVCache使用率、推理排队负载感知的流量调度、长上下文请求调度优化等，持续提升MaaS系统的稳定性、成本效益； 3、探索并跟进业界开源SOTA模型，如Qwen系列、DeepSeek系列，多维度评估模型效果并建立相关的准入体系，及时上架到MaaS系统； 4、参与MaaS系统的国产卡适配，如华为910C、阿里PPU等； 5、参与攻克大规模分布式推理系统带来的复杂挑战，通过弹性调度、容量规划、链路压测等手段提升系统健壮性，确保平台能够弹性扩展，支撑业务的飞速增长。

更新于 2025-08-05北京|上海

AI大模型部署系统研发工程师实习生

实习后端开发

核心职责参与小红书大模型平台推理部署等流程及工具的研发建设，完善平台现有功能参与平台Quota管理模块的开发，实现多机房、多集群环境下的，各种异构计算资源的配额管理功能参与平台大模型训练/压缩/推理/数据集/资源调度等流程及工具的研发建设

更新于 2025-11-07上海|北京

AI大模型部署系统研发工程师（实习）

实习后端开发

1、参与AI平台大模型推理部署等流程及工具的研发建设，完善平台现有功能。 2、参与AI平台Quota管理模块的开发，实现多机房、多集群环境下的，各种异构计算资源的配额管理功能。 3、参与AI平台联邦调度能力的设计和开发，与下游云原生团队共同实现平台联邦和弹性部署能力。

更新于 2025-08-05北京|上海