小红书深度学习推理优化-异构计算方向

社招全职3年以上引擎2026-04-02地点：北京 | 上海状态：招聘

扫码手机上打开

任职要求

1. 计算机及相关专业本科以上学历，3年以上高性能系统或AI Infra研发经验。
2. 精通C/C++/CUDA/AscendC/TopsCC，具备扎实的系统底层能力（内存、并发、网络）。
3. 深入理解至少一种主流训练/推理框架（XDL、TFRA、DeepRec、TorchRec、DeepSpeed、veRL、Megatron等），对其执行模型与性能瓶颈有源码级洞察。
4. 熟悉TensorFlow Serving、TensorRT、OpenXLA、ONNX Runtime等推…

登录查看完整任职要求

微信扫码，1秒登录

工作职责

【部门介绍】引擎架构部提供小红书搜广推，CV和NLP业务的深度学习模型高性能推理服务。主导SOTA推理引擎的架构设计与核心模块开发，支撑搜广推业务在长序列建模、生成式推荐、Agent等前沿场景在GPU，XPU等异构计算部件上规模落地。

1. 参与推理引擎的架构设计与核心模块的开发。持续优化推理基础设施：特征DSL编译引擎、服务化推理框架，实现性能提升。
2. 优化搜广推、长序列、多模态、MoE等深度学习模型的推理效率，将各场景的推理性能优化到极致。
3. 针对GPU/NPU等异构计算芯片，探索片内多部件并行流水线等前沿技术，构建业界影响力。

📮 投递简历 ✨AI模拟面试

难度：

包括英文材料

学历+

C+

C+++

CUDA+

Megatron+

TensorFlow+

TensorRT+

ONNX+

还有更多 •••

登录查看完整学习资料

相关职位

深度学习推理优化-AI编译器方向

社招3年以上引擎

【部门介绍】引擎架构部提供小红书搜广推，CV和NLP业务的深度学习模型高性能推理服务。主导SOTA推理引擎的架构设计与核心模块开发，支撑搜广推业务在长序列建模、生成式推荐、Agent等前沿场景在GPU，XPU等异构计算部件上规模落地。 1. 参与推理引擎的架构设计与核心模块的开发，参与AI编译器前后端的设计与实现，优化IR Compile模式下DSL特征处理引擎和AI推理引擎的性能。 2. 分析I/O性能瓶颈、优化编译耗时和codegen性能，改进编译优化算法，不断优化编译器，解决编译部署问题。 3. 优化IR Compile模式下搜广推、长序列、多模态、MoE等深度学习模型的推理效率。 4. 针对GPU/NPU等异构计算芯片，探索基于IR编译优化的片内多部件并行流水线等前沿技术，构建业界影响力。

更新于 2026-04-02北京|上海

深度学习推理库开发实习生

实习软件工程

1、负责集成和维护不同硬件平台上的深度学习推理库； 2、负责算法模型在不同平台的推理部署和优化，包括 SDK 开发，图优化开发等； 3、负责版本发布，开发和维护测试用例，确保软件版本交付稳定。

更新于 2026-01-28北京|上海|苏州

平头哥-深度学习推理引擎研发专家-杭州

社招5年以上技术-芯片

1、参与设计和实现推理引擎SDK，提升推理性能、易用性和产品稳定性。（Design and develop inference engine。Focusing on performance、usability and product robustness） 2、参与设计和实现推理引擎的AI编译。包括图融合、各类图优化、算子优化以及自动化调优等（Design and develop AI Compiling。including fusion，graph optimizations、kernel optimization and auto-tuning） 3、参与设计和实现推理引擎的运行时系统。包括内存管理以及资源管理等等。实现高效和稳定的稳定性。（Design and develop runtime system，including memory management and resource management） 4、参与设计和实现大模型的推理优化。基于推理引擎，研发和应用大模型推理优化的技术（Design and optimize LLM inference。Based on inference engine，develop and apply core technology for LLM inference）

更新于 2026-07-07杭州

平头哥-深度学习推理引擎研发专家-上海

社招5年以上技术-芯片

更新于 2026-07-07上海