小红书大模型压缩算法研发工程师/专家

社招全职3-5年引擎2026-07-14地点：北京 | 上海 | 深圳 | 杭州状态：招聘

扫码手机上打开

任职要求

1、熟悉蒸馏、剪枝、量化等模型压缩常用方案，参与或主导过大型项目业务落地或有相关论文者优先；
2、熟悉至少一种主流的深度学习训练或推理框架（TensorFlow / PyTorch / Onnx / TensorRT等）的原理…

登录查看完整任职要求

微信扫码，1秒登录

工作职责

我们是小红书中台大模型 Infra 团队，专注打造领先易用的「AI 大模型全链路基础设施」！团队深耕大模型「数-训-压-推-评」技术闭环，在大模型训练加速、模型压缩、推理优化、部署提效等方向积累了深厚的技术优势，基于 RedAccel 训练引擎、RedSlim 压缩工具、RedServing 推理部署引擎、DirectLLM 大模型 API 服务、QuickSilver 大模型生产部署平台等核心产品，持续赋能社区、商业、交易、安全、数平、研效等多个核心业务，实现 AI 技术高效落地！

1、探索研发针对大语言模型、多模态大模型、StableDiffusion模型等模型的压缩技术，包括但不限于量化、蒸馏、剪枝、稀疏化等；
2、参与/负责多个业务场景中的模型压缩技术实现，对模型进行轻量化压缩，提高训练/推理效率，支持业务降本增效；
3、参与/负责针对英伟达GPU、华为昇腾NPU等不同的计算硬件，制定不同的模型压缩方案并在业务落地；

📮 投递简历 ✨AI模拟面试

难度：

包括英文材料

深度学习+

TensorFlow+

PyTorch+

ONNX+

还有更多 •••

登录查看完整学习资料

相关职位

大模型压缩算法工程师实习生

实习引擎

1、参与小红书万亿级Token量推理系统构建，包括但不限于大模型智能网关、大模型弹性伸缩、推理系统优化等方向，共同打造国内领先的大模型推理系统； 2、探索负载感知的推理系统流量调度算法，如基于Prefix Cache命中率调度、基于P/D分离的流量调度、基于KVCache使用率、推理排队负载感知的流量调度、长上下文请求调度优化等，持续提升MaaS系统的稳定性、成本效益； 3、探索并跟进业界开源SOTA模型，如Qwen系列、DeepSeek系列，多维度评估模型效果并建立相关的准入体系，及时上架到MaaS系统； 4、参与MaaS系统的国产卡适配，如华为910C、阿里PPU等； 5、参与攻克大规模分布式推理系统带来的复杂挑战，通过弹性调度、容量规划、链路压测等手段提升系统健壮性，确保平台能够弹性扩展，支撑业务的飞速增长。

更新于 2025-12-08北京|上海

大模型压缩算法工程师（实习）

实习引擎

工作职责： 1、探索研发针对大语言模型、多模态大模型、MoE模型、StableDiffusion等模型的压缩技术，包括但不限于量化、蒸馏、剪枝、稀疏化等； 2、参与/负责小红书业务场景中的模型压缩技术的实现和优化，对模型进行轻量化压缩，提高训练/推理效率，支持业务降本增效； 3、参与/负责针对英伟达GPU、华为昇腾NPU等不同的计算硬件，制定不同的模型压缩方案并在业务落地；

更新于 2025-12-08北京|上海

混元LLM大模型量化压缩高级算法工程师（北京/深圳/上海）

社招5年以上TEG公共技术

1.深度参与LLM大模型压缩加速方案研究，包括不限于：； 2.投机采样：适配LLM模型架构特性，探索Prefill / RL等场景下优化加速方案； 3.稀疏化：Sparse Attention，KV-Cache压缩，模型结构剪枝等优化技术，协同框架定制化稀疏方案，提升模型推理性能； 4.量化：优化Transformer中 Linear/KV-Cache/Attention量化算法，适配FP8/INT8/NVFP4等量化方案及不同硬件后端。探索极低bit量化训练方案，深度协同硬件联合优化，实现模型体积极致压缩和性能突破，并推动实际业务落地； 5.新技术：聚焦长上下文，多轮对话优化等压缩加速优化技术研究； 6.设计可落地的大模型压缩算法及成本优化方案，助力大模型的性能加速，不限于模型结构/软硬协同优化； 7.分析业务性能瓶颈和模型特点，定制化开发大模型压缩优化工具，实现一站式模型压缩-部署的高速推理方案； 8.参与前沿的模型压缩加速算法研究，追踪领域前沿工作，撰写并发表顶会论文。

更新于 2026-06-08深圳

自动驾驶算法实习生（大模型与量化压缩方向）

实习算法序列

职位概览我们正在寻找对端到端自动驾驶、多模态大模型（VLM/VLA）以及模型高效部署充满热情的同学。你将参与开发下一代智能驾驶算法，重点解决大参数量模型在车规级芯片上的实时运行难题，通过量化、剪枝及训练策略优化，让 AI 更好地理解物理世界并执行驾驶决策。核心职责大模型研发与优化：参与视觉语言模型（VLM）或视觉-语言-动作模型（VLA）在自动驾驶场景下的预训练、微调（SFT）及指令遵循能力优化。量化算法实施：针对 Transformer/Diffusion 等架构，研究并落地先进的量化算法（如 PTQ、QAT、FP8/INT8/INT4 量化），确保模型在有限算力下保持精度。算法端到端部署：配合工程团队，将复杂的感知或决策模型转化为高效的推理引擎，解决量化掉点、算子融合等实际问题。前沿技术跟踪：调研并复现相关的顶会论文（CVPR, ICCV, NeurIPS 等），探索大模型在自动驾驶长尾场景（Corner Cases）中的应用。

更新于 2026-04-02南京