小红书大模型高性能推理研发工程师/专家

社招全职3-5年引擎2026-07-14地点：北京 | 上海 | 深圳 | 杭州状态：招聘

扫码手机上打开

任职要求

任职资格：
具备扎实的代码能力、数据结构和基础算法功底，熟悉 Rust / C++ / Python 中至少一门语言，具备良好的工程实现能力和代码质量意识。
熟悉大模型推理、模型压缩、深度学习框架中的至少一个方向，并具备源码阅读、修改、性能优化或工程落地经验。
熟悉至少一种主流推理或深度学习框架，如 vLLM、SGLang、TensorRT-LLM、Nvidia Dynamo、AIBrix、PyTorch、ONNX、TensorRT 等。
理解大模型推理核心链路，对 KV Cache 管理、PagedAttention、Chunked Prefill、Continuous Batching、PD 分离、请求调度、推理服务稳定性等技术有经验或深入认知。
理解模型压缩常用方法，对量化、蒸馏、剪枝、投机解码、KV Cache 压缩、CoT 压缩等技术有经验或深入认知。
能围绕延迟、吞吐、并发、显存、通信、精度、成本、业务效果等指标进行系统分析，在推理性能、压缩效果和业务收益之间做合理权衡。
具备较强的问题定位和系统优化能力，能够借助 Profiling、日志、监控和实验分析等手段定位复杂系统瓶颈，并推动问题闭环。
具备良好的学习能力、沟通协作能力和自驱力，能与算法、MaaS、平台…

登录查看完整任职要求

微信扫码，1秒登录

工作职责

我们是小红书中台大模型 Infra 团队，专注打造领先易用的「AI 大模型全链路基础设施」！团队深耕大模型「数-训-压-推-评」技术闭环，在大模型训练加速、模型压缩、推理优化、部署提效等方向积累了深厚的技术优势，基于 RedAccel 训练引擎、RedSlim 压缩工具、RedServing 推理部署引擎、DirectLLM 大模型 API 服务、QuickSilver 大模型生产部署平台等核心产品，持续赋能社区、商业、交易、安全、数平、研效等多个核心业务，实现 AI 技术高效落地！

工作职责：
推理框架研发： 参与 rLLM 推理框架研发，支撑 LLM、MLLM、DiT 等模型的高性能在线推理。
分布式推理能力建设： 参与 KV Router、PD 分离 / EPD 分离、KV Cache 管理、Prefix Cache 复用、动态请求调度等核心能力建设。
推理性能优化： 围绕 TTFT、TPOT、吞吐、并发能力、GPU 利用率等指标，持续优化推理框架性能和资源效率。
模型压缩算法落地： 探索并落地大语言模型和多模态模型的低比特量化、蒸馏、剪枝、投机解码、KV Cache 压缩、CoT 压缩等技术，在保证业务效果的前提下降低推理成本。
压缩评估与部署闭环： 建设模型压缩评估与部署闭环，平衡精度、延迟、吞吐、显存、成本与业务效果，将压缩算法转化为稳定、可复用、可规模化的生产能力。
系统可靠性建设： 构建推理框架的系统容错能力，包括请求迁移、优雅退出、故障检测、自愈恢复、灰度发布等能力。
异构芯片推理适配： 负责推理引擎在国产异构计算芯片（昇腾 / PPU 等）上的适配与深度优化，完成模型迁移、算子开发、Profiling、Kernel 调优、并行策略与服务架构调优，推动国产算力在推理场景的规模化使用。
多模型与多硬件适配： 支撑 LLM、MLLM、Embedding、Rerank、DiT 等多类型模型在 Nvidia GPU、国产 NPU / PPU 等多种硬件上的推理、压缩和部署落地。
业务协同： 与算法、MaaS、平台和业务团队深度协作，为重点业务进行算法与系统联合优化，支撑业务推理成本下降和性能提升。

📮 投递简历 ✨AI模拟面试

难度：

包括英文材料

数据结构+

算法+

Rust+

C+++

Python+

大模型+

深度学习+

vLLM+

还有更多 •••

登录查看完整学习资料

相关职位

微信-高性能 - 视觉 AIGC 大模型推理优化工程师

社招1年以上视频号短视频技术

1. 针对 NPU、GPU 等异构硬件，探索 AIGC 大模型的最优推理方案，开发维护自研 AIGC 推理框架，将 XNet 推理引擎的优化能力赋能业务模型，支持微信视频号及其他业务的部署与持续优化 2. 深入理解 AIGC 大模型，以算法-系统 Co-design 的思路，探索与应用 Cache、稀疏、量化等 Training-free 或需要 Finetune 的优化方案，在保证业务指标的前提下，探索推理优化的边界 3. 持续跟进 AIGC 大模型的发展动态，探索并落地通用推理优化方案，支持新模型的高效上线，并提供模型优化的原子能力，支持算法侧与业务侧的高效接入与调试

更新于 2026-04-14深圳

智能引擎-AI 高性能计算专家-大模型推理

社招3年以上

我们是阿里巴巴大模型推理团队，负责内部 LLM/AIGC 百炼推理服务建设，为淘宝、天猫、聚划算、优酷、闲鱼等多个集团业务部门提供强有力的技术支撑和底层服务能力。 AI 高性能计算工程师负责探索不同AI芯片（NV，AMD, 华为昇腾, TPU, 寒武纪等）的底层架构，使用硬件手写原生 Kernel、 Trition/Tilelang 编译优化等手段，解决“从0到1”（跑通）和“从1到N”（跑得快）的关键问题。

更新于 2026-04-08北京|杭州|上海

AI推理平台-AI 高性能计算专家-大模型推理

社招3年以上

更新于 2026-07-08北京|杭州

基础设施与稳定性工程-大模型推理优化工程师-高性能网络通信

社招3年以上技术类-开发

负责设计、实现、维护 AI 和高性能计算所需要的高性能网络通信框架和大模型推理场景的性能优化，聚焦模型通信场景的能力建设，完善集合通信、点对点通信等通信方式与推理框架的联合方案设计，追求极致的推理性能。

更新于 2026-06-01杭州