小红书【2026校招】AI Infra工程师
任职要求
1. 有扎实的工程算法基础,精通数据结构和常用算法,熟练掌握各种编译、调试、性能分析工具。 2. 精通C/C++/CUDA/TopsCC/AscendC,具备扎实的系统底层能力(内存、并发、网络)。 3. 有大规模分布式系统开发和优化经验;有大模型分布式训练经验者优先。 4. 精通MLIR/TVM/Triton/Torch Inductor/TileLang/Verbs/NCCL/NVSHMEM等分布式异构计算框架和相关工具链。 5. 精通Megatron/DeepSpeed/veRL/OpenRLH…
工作职责
【团队介绍】 Galapagos AI Infrastructures 团队致力于大模型分布式训练、强化学习框架、高性能推理及异构硬件编译器等核心技术的研发,持续打造先进、高效的 AI 基础引擎。 【岗位职责】 参与研发下一代超大规模模型(百亿-万万亿级参数量)的GPU/NPU/PPU/CPU千卡互联分布式训练和推理框架。 参与研发分布式并行/流水线/通信优化/ZeRO/FSDP,消除大规模分布式训练通讯/计算/内存/显存瓶颈,极致优化模型训练和推理的性能。 参与Triton,TileLang计算图编译优化,研发CUDA/cutlass高性能算子,将硬件性能压榨到极致,最大化发挥出GPU/NPU/PPU/CPU等异构硬件协同算力。 参与开发/调试用于异构计算全链路的AI编译器,探索基于MLIR/TIR编译优化的片内多部件并行流水线等前沿技术,构建业界影响力。 支撑业界领先的Generative Recommendation/LLM/VLM模型在国内最大的生活兴趣社区上落地。
小红书中台AI Infra团队深耕大模型「数-训-压-推-评」技术闭环,具备专业的大模型训练加速、模型压缩、推理加速、部署提效等方向硬核技术积淀,基于RedAccel训练引擎、RedSlim压缩工具、RedServing推理部署引擎、DirectLLM大模型MaaS服务,支撑小红书社区、商业、交易、安全、数平、研效等多个核心业务实现AI技术高效落地! 大模型训练方向: 1、参与设计实现支持RLHF/DPO等对齐技术的高效训练框架,优化强化学习阶段的Rollout、Reward Model集成、多阶段训练Pipeline; 2、研发支持多机多卡RL的分布式训练框架,开发TP/PP/ZeRO-3与RL流程的动态协同机制,解决RL算法在超长时序下的显存/通信瓶颈; 3、基于自建的训推引擎,落地公司统一的大模型生产部署平台,为公司所有大模型算法同学提供端到端的一站式服务。 大模型压缩方向: 1、探索研发针对大语言模型、多模态大模型等场景的压缩技术,包括但不限于量化、蒸馏、剪枝、稀疏化等; 2、参与/负责多个业务场景中的模型压缩技术实现,对模型进行轻量化压缩,提高训练/推理效率,支持业务降本增效; 3、参与/负责针对英伟达GPU、华为昇腾NPU等不同的计算硬件,制定不同的模型压缩方案并在业务落地。 大模型推理方向: 1、参与/负责研发面向LLM/MLLM等模型的稳定、易用、性能领先的AI推理框架; 2、通过并行计算优化、分布式架构优化、异构调度等多种框架技术,支撑各业务方向持续降本增效; 3、深度参与周边深度学习系统多个子方向的工作,包括但不限于模型管理、推理部署、日志/监控、工作流编排等。 高性能计算方向: 1、参与/负责AI推理/训练框架的底层性能优化工作,包括但不限于高性能算子、通信库开发与优化等工作; 2、参与/负责大模型计算引擎的研发工作,通过多种方式实现训推性能SOTA; 3、参与/负责前沿AI编译加速等技术的探索和业务落地。 大模型服务方向: 1、参与/负责大模型MaaS系统的架构设计、系统研发、产品研发等工作; 2、深入参与面向大模型场景的请求调度、异构资源调度、引擎优化等核心工作,实现万亿级并行推理系统; 3、为内部产品线提供解决方案,协助公司内用户解决大模型应用过程中业务在MaaS上的使用问题。
1. 主导新一代训练与推理引擎的架构设计与核心模块开发,支撑搜广推业务在长序列建模、生成式推荐、Agent 等前沿场景的规模落地。 2. 与存储、数据平台深度协同,打造端到端 ML 数据 Pipeline:统一特征管理、秒级调试、版本追踪与一键上线,让数据科学家专注模型创新。 3. 持续优化训推基础设施:自研 Embedding 高速存储、特征 DSL 引擎、弹性调度与服务化推理框架,实现 10x 级性能提升。 4. 跟踪 LLM / Agent 最新进展,将其工程化落地到搜索、广告、推荐及智能体业务,定义行业新标准。
1、负责可观测体系研发工作,围绕 Metrics、Logging、Tracing、Profiling 四大支柱,从全栈领域展开可观测基础能力建设; 2、负责监控平台、全链路追踪、日志服务、计算引擎(流式分析、实时告警、时序检测等)、告警、eBPF 等可观测相关技术架构及产品设计; 3、保障可观测相关基础服务,在高并发环境下的高性能、高可用,推动技术、产品持续优化迭代; 4、落地 AI Infra 可观测、AI 应用可观测、可观测 AI+ 等相关技术,提高 AI 场景稳定性以及传统可观测产品使用体验和效率。