小红书大模型-推理框架研发工程师

社招全职3-5年引擎2026-04-02地点：北京 | 上海状态：招聘

扫码手机上打开

任职要求

1. 熟练掌握GPU CUDA编程
2. 追求技术极致，务实，渴望有自己的作品和代表作
3. 加分项
- 对芯片…

登录查看完整任职要求

微信扫码，1秒登录

工作职责

【业务介绍】小红书业务技术部-引擎架构团队，支撑社区、搜索、商业化等小红书核心业务落地AI技术
：
1. 参与/负责研发面向大语言模型(LLM)/多模态大模型(MLLM)的推理服务的研发和优化； 
2. 在PD分离、EP部署的基础上，优化Agentic 服务的推理效率，降低推理成本

📮 投递简历 ✨AI模拟面试

难度：

包括英文材料

CUDA+

相关职位

大模型推理框架研发工程师/专家

社招5-10年引擎

我们是小红书中台大模型 Infra 团队，专注打造领先易用的「AI 大模型全链路基础设施」！团队深耕大模型「数-训-压-推-评」技术闭环，在大模型训练加速、模型压缩、推理优化、部署提效等方向积累了深厚的技术优势，基于 RedAccel 训练引擎、RedSlim 压缩工具、RedServing 推理部署引擎、DirectLLM 大模型 API 服务、QuickSilver 大模型生产部署平台等核心产品，持续赋能社区、商业、交易、安全、数平、研效等多个核心业务，实现 AI 技术高效落地！工作职责： 1、参与/负责研发面向大语言模型(LLM)/多模态大模型(MLLM)等类型模型的推理服务框架； 2、参与/负责KV Router、PD分离/EPD分离、KVCache管理、动态PD调整等分布式推理能力建设； 3、通过并行计算优化、分布式架构优化、异构调度等多种框架技术，打造高效、易用、领先的AI推理框架； 4、参与/负责构建推理框架的系统容错能力，包括但不限于请求迁移、优雅退出、故障检测、自愈等能力建设； 5、深度参与周边深度学习系统多个子方向的工作，包括但不限于模型管理、推理部署、日志/监控、工作流编排等； 6、与全公司各业务算法部门深度合作，为重点项目进行算法与系统的联合优化，支撑业务目标达成。

更新于 2026-03-28北京|上海

大模型推理框架研发工程师（高级/资深）(J250514005)

社招技术

1. 主导大模型推理引擎的架构设计与核心模块开发，支撑千亿参数模型的高效分布式推理。 2. 研发面向GPU/NPU等异构计算平台的高性能算子，提升硬件利用效率。 3. 参与模型低精度量化，图优化，编译优化等性能优化工作。 4. 攻克分布式推理中的动态负载均衡、通信优化、显存管理等核心技术难题。 5. 跟踪学术界与工业界前沿技术（如vLLM、TGI、TensorRT-LLM等），推进框架迭代。

更新于 2025-12-02北京

推理框架研发工程师-(深圳)or(北京)or

社招3年以上腾讯云技术

1.研发及优化大模型推理引擎、PD分离推理调度系统，提升大规模分布式推理系统的整体效率； 2.支持主流GPU和异构AI芯片，优化大模型推理性能，打造极致性能成本优势。

更新于 2026-04-01上海

AI模型推理框架研发工程师-AI技术部

社招引擎

工作职责： 1、负责研发面向CV/NLP/多模态/大语言模型等类型的模型推理服务框架，通过在CPU/GPU/NPU/...等异构硬件上实现并行计算优化、分布式架构设计、异构调度等多种高性能优化技术，打造业界领先的高性能异构AI推理引擎 2、围绕框架，深度参与周边机器学习系统多个子方向的工作，包括：模型管理、推理部署、日志/监控、工作流编排等 3、与全公司相关算法部门深度合作，为重点项目进行算法与系统的联合优化

更新于 2025-08-06北京|上海