logo of xiaohongshu

小红书大模型异构计算优化工程师/专家

社招全职3-5年引擎地点:北京 | 上海状态:招聘

任职要求


1、熟练掌握 C++/Python 编程,具备扎实的计算机体系结构、数据结构算法基础,具备良好的编程习惯;
2、有至少一款非Nvidia GPU的异构计算芯片适配大模型训练、推理框架的相关经验,包括但不限于AI框架适配、模型移植、性能优化或算子开发;
3、熟悉至少一种主流的机器学习框架(PyTorch/PaddlePaddle/TensorFlow等),对框架内部实现有一定了解;
4、具备大型深度学习模型(尤其是大语言模型LLM或多模态模型)的训练或…
登录查看完整任职要求
微信扫码,1秒登录

工作职责


1、核心引擎开发与优化:负责或深度参与基于国产异构计算芯片(如NPU/PPU等)的大模型训练/推理引擎的架构设计、开发与迭代,构建高性能、高稳定性的上层软件栈;
2、大模型业务落地:将引擎能力应用于公司核心业务,主导或参与多模态、大语言模型等前沿AI模型在国产芯片上的训练、微调与推理部署,解决实际落地中的技术难题;
3、极致性能调优:针对各类业务大模型,进行深度的推理调度策略优化和关键算子(Kernel)的性能剖析与极致优化,持续提升系统的吞吐量、降低延迟;
4、生态合作与协同:作为技术接口人,与国产芯片原厂技术支持团队紧密合作,高效推进芯片驱动、基础软件栈的引入、问题排查与版本迭代,确保技术路线顺畅推进。
包括英文材料
C+++
Python+
数据结构+
算法+
编程规范+
大模型+
机器学习+
还有更多 •••
相关职位

logo of kuaishou
社招D11722

1、利用图优化,编译优化,CPU/GPU优化等技术加速CV/NLP/Speech等AI算法推理,充分挖掘处理器算力,为快手数亿用户提供高效稳定的算法能力输出; 2、追踪业界在异构计算性能优化方面的发展,并进行预研和应用探索; 3、工作内容包括但不限于: (1)CUDA kernel开发; (2)编译优化技术开发; (3)onnx parser开发; (4)训推一体加速库开发; (5)多卡推理技术开发; (6)针对Transformer/bert网络结构性能优化。

更新于 2025-05-16北京
logo of kuaishou
社招3-5年J0011

1、跟踪业界最新强化学习领域算法/训练范式进展,完成大模型强化学习训练框架的设计与实现,提升大集群分布式训练性能,缩短模型迭代周期; 2、负责大模型SFT/蒸馏训练框架的设计与实现,提升分布式训练性能; 3、负责分布式大模型推理引擎的方案设计与实现,快速完成业界Sota模型的规模化上线服务; 4、负责异构计算芯片(GPU/NPU/ASIC等)的评估、选型以及计算加速引擎设计实现。

更新于 2026-02-13北京|上海
logo of xiaohongshu
社招引擎

【部门介绍】引擎架构部是目前小红书AI Infra核心部门,囊括搜广推、CV、NLP、语音、多模态等主要业务场景。团队主导SOTA AI Infra架构设计与核心模块开发,支撑AI业务在AI前沿场景上规模落地。 【岗位职责】 参与开发下一代超大模型(百亿-万亿级)模型的GPU/NPU/PPU/CPU千卡互联分布式训练和推理框架。 参与开发分布式并行/流水线/通信优化/ZeRO/FSDP工作,消除大规模分布式训练通讯/计算/内存瓶颈,极致优化模型训练和推理的性能。 参与开发Triton,TileLang计算图编译优化或者使用CUDA/cutlass编写高性能算子,将硬件性能压榨到极致,最大化发挥出GPU/NPU/PPU/CPU等异构硬件协同算力。 参与开发/调试用于异构计算全链路的AI编译器,探索基于IR编译优化的片内多部件并行流水线等前沿技术,构建业界影响力。 支撑业界领先的多模态模型在国内最大的生活兴趣社区上落地。

更新于 2026-04-02北京|上海|深圳
logo of xiaohongshu
社招5-10年引擎

我们是小红书中台大模型 Infra 团队,专注打造领先易用的「AI 大模型全链路基础设施」!团队深耕大模型「数-训-压-推-评」技术闭环,在大模型训练加速、模型压缩、推理优化、部署提效等方向积累了深厚的技术优势,基于 RedAccel 训练引擎、RedSlim 压缩工具、RedServing 推理部署引擎、DirectLLM 大模型 API 服务、QuickSilver 大模型生产部署平台等核心产品,持续赋能社区、商业、交易、安全、数平、研效等多个核心业务,实现 AI 技术高效落地! 工作职责: 1、参与/负责研发面向大语言模型(LLM)/多模态大模型(MLLM)等类型模型的推理服务框架; 2、参与/负责KV Router、PD分离/EPD分离、KVCache管理、动态PD调整等分布式推理能力建设; 3、通过并行计算优化、分布式架构优化、异构调度等多种框架技术,打造高效、易用、领先的AI推理框架; 4、参与/负责构建推理框架的系统容错能力,包括但不限于请求迁移、优雅退出、故障检测、自愈等能力建设; 5、深度参与周边深度学习系统多个子方向的工作,包括但不限于模型管理、推理部署、日志/监控、工作流编排等; 6、与全公司各业务算法部门深度合作,为重点项目进行算法与系统的联合优化,支撑业务目标达成。

更新于 2026-03-28北京|上海