小红书大模型异构计算优化工程师/专家

社招全职3-5年引擎2026-03-28地点：北京 | 上海状态：招聘

扫码手机上打开

任职要求

1、熟练掌握 C++/Python 编程，具备扎实的计算机体系结构、数据结构和算法基础，具备良好的编程习惯；
2、有至少一款非Nvidia GPU的异构计算芯片适配大模型训练、推理框架的相关经验，包括但不限于AI框架适配、模型移植、性能优化或算子开发；
3、熟悉至少一种主流的机器学习框架(PyTorch/PaddlePaddle/TensorFlow等)，对框架内部实现有一定了解；
4、具备大型深度学习模型（尤其是大语言模型LLM或多模态模型）的训练或…

登录查看完整任职要求

微信扫码，1秒登录

工作职责

1、核心引擎开发与优化：负责或深度参与基于国产异构计算芯片（如NPU/PPU等）的大模型训练/推理引擎的架构设计、开发与迭代，构建高性能、高稳定性的上层软件栈；
2、大模型业务落地：将引擎能力应用于公司核心业务，主导或参与多模态、大语言模型等前沿AI模型在国产芯片上的训练、微调与推理部署，解决实际落地中的技术难题；
3、极致性能调优：针对各类业务大模型，进行深度的推理调度策略优化和关键算子（Kernel）的性能剖析与极致优化，持续提升系统的吞吐量、降低延迟；
4、生态合作与协同：作为技术接口人，与国产芯片原厂技术支持团队紧密合作，高效推进芯片驱动、基础软件栈的引入、问题排查与版本迭代，确保技术路线顺畅推进。

📮 投递简历 ✨AI模拟面试

难度：

包括英文材料

C+++

Python+

数据结构+

算法+

编程规范+

大模型+

机器学习+

还有更多 •••

登录查看完整学习资料

相关职位

AI推理优化工程师/专家-大模型

社招D11722

1、利用图优化，编译优化，CPU/GPU优化等技术加速CV/NLP/Speech等AI算法推理，充分挖掘处理器算力，为快手数亿用户提供高效稳定的算法能力输出； 2、追踪业界在异构计算性能优化方面的发展，并进行预研和应用探索； 3、工作内容包括但不限于：（1）CUDA kernel开发；（2）编译优化技术开发；（3）onnx parser开发；（4）训推一体加速库开发；（5）多卡推理技术开发；（6）针对Transformer/bert网络结构性能优化。

更新于 2025-05-16北京

多元算力AI计算引擎工程师/专家

社招3-5年J0011

1、跟踪业界最新强化学习领域算法/训练范式进展，完成大模型强化学习训练框架的设计与实现，提升大集群分布式训练性能，缩短模型迭代周期； 2、负责大模型SFT/蒸馏训练框架的设计与实现，提升分布式训练性能； 3、负责分布式大模型推理引擎的方案设计与实现，快速完成业界Sota模型的规模化上线服务； 4、负责异构计算芯片（GPU/NPU/ASIC等）的评估、选型以及计算加速引擎设计实现。

更新于 2026-02-13北京|上海

AI Infra工程师/专家

社招引擎

【部门介绍】引擎架构部是目前小红书AI Infra核心部门，囊括搜广推、CV、NLP、语音、多模态等主要业务场景。团队主导SOTA AI Infra架构设计与核心模块开发，支撑AI业务在AI前沿场景上规模落地。【岗位职责】参与开发下一代超大模型（百亿-万亿级）模型的GPU/NPU/PPU/CPU千卡互联分布式训练和推理框架。参与开发分布式并行/流水线/通信优化/ZeRO/FSDP工作，消除大规模分布式训练通讯/计算/内存瓶颈，极致优化模型训练和推理的性能。参与开发Triton，TileLang计算图编译优化或者使用CUDA/cutlass编写高性能算子，将硬件性能压榨到极致，最大化发挥出GPU/NPU/PPU/CPU等异构硬件协同算力。参与开发/调试用于异构计算全链路的AI编译器，探索基于IR编译优化的片内多部件并行流水线等前沿技术，构建业界影响力。支撑业界领先的多模态模型在国内最大的生活兴趣社区上落地。

更新于 2026-04-02北京|上海|深圳

大模型推理框架研发工程师/专家

社招5-10年引擎

我们是小红书中台大模型 Infra 团队，专注打造领先易用的「AI 大模型全链路基础设施」！团队深耕大模型「数-训-压-推-评」技术闭环，在大模型训练加速、模型压缩、推理优化、部署提效等方向积累了深厚的技术优势，基于 RedAccel 训练引擎、RedSlim 压缩工具、RedServing 推理部署引擎、DirectLLM 大模型 API 服务、QuickSilver 大模型生产部署平台等核心产品，持续赋能社区、商业、交易、安全、数平、研效等多个核心业务，实现 AI 技术高效落地！工作职责： 1、参与/负责研发面向大语言模型(LLM)/多模态大模型(MLLM)等类型模型的推理服务框架； 2、参与/负责KV Router、PD分离/EPD分离、KVCache管理、动态PD调整等分布式推理能力建设； 3、通过并行计算优化、分布式架构优化、异构调度等多种框架技术，打造高效、易用、领先的AI推理框架； 4、参与/负责构建推理框架的系统容错能力，包括但不限于请求迁移、优雅退出、故障检测、自愈等能力建设； 5、深度参与周边深度学习系统多个子方向的工作，包括但不限于模型管理、推理部署、日志/监控、工作流编排等； 6、与全公司各业务算法部门深度合作，为重点项目进行算法与系统的联合优化，支撑业务目标达成。

更新于 2026-03-28北京|上海