小红书深度学习推理优化工程师-引擎架构
任职要求
【岗位要求】 1. 计算机及相关专业本科以上学历,3 年以上高性能系统或 AI Infra 研发经验。 2. 精通 C/C++,具备扎实的系统底层能力(内存、并发、网络),代码风格优雅,热衷技术分享。 3. 深入理解至少一种主流训练/推理框架(XDL、TFRA、DeepRec、TorchRec、DeepSpeed、veRL、Megatron 等),对其执行模型与性能瓶颈有源码级洞察。 4. 熟悉 TensorFlow Serving、TensorRT、OpenXLA、ONNX Runtime 等推理后端,具备大模型量化、编译优化与线上 A/B 调优实战经验。 5.…
工作职责
【岗位职责】 1. 主导新一代训练与推理引擎的架构设计与核心模块开发,支撑搜广推业务在长序列建模、生成式推荐、Agent 等前沿场景的规模落地。 2. 与存储、数据平台深度协同,打造端到端 ML 数据 Pipeline:统一特征管理、秒级调试、版本追踪与一键上线,让数据科学家专注模型创新。 3. 持续优化训推基础设施:自研 Embedding 高速存储、特征 DSL 引擎、弹性调度与服务化推理框架,实现 10x 级性能提升。 4. 跟踪 LLM / Agent 最新进展,将其工程化落地到搜索、广告、推荐及智能体业务,定义行业新标准。
1、参与模型训练与推理引擎的架构设计与核心模块开发,基于 TensorFlow / PyTorch 打造业界领先的训练-推理引擎,支撑长序列建模与生成式推荐等新一代模型架构升级; 2、对接存储与数据平台团队,搭建统一的 ML 数据 Pipeline,提供特征管理、开发调试、版本控制与高效生产等平台化能力; 3、负责训推基础设施核心模块的研发与性能优化,包括但不限于 Embedding 管理组件、特征 DSL 引擎、服务化调度与推理框架; 4、关注业界前沿 LLM / Agent 等模型与系统架构,探索其在搜索与推荐业务中的工程化落地方案。
1. 主导新一代训练与推理引擎的架构设计与核心模块开发,支撑搜广推业务在长序列建模、生成式推荐、Agent 等前沿场景的规模落地。 2. 与存储、数据平台深度协同,打造端到端 ML 数据 Pipeline:统一特征管理、秒级调试、版本追踪与一键上线,让数据科学家专注模型创新。 3. 持续优化训推基础设施:自研 Embedding 高速存储、特征 DSL 引擎、弹性调度与服务化推理框架,实现 10x 级性能提升。 4. 跟踪 LLM / Agent 最新进展,将其工程化落地到搜索、广告、推荐及智能体业务,定义行业新标准。
我们是小红书中台大模型 Infra 团队,专注打造领先易用的「AI 大模型全链路基础设施」!团队深耕大模型「数-训-压-推-评」技术闭环,在大模型训练加速、模型压缩、推理优化、部署提效等方向积累了深厚的技术优势,基于 RedAccel 训练引擎、RedSlim 压缩工具、RedServing 推理部署引擎、DirectLLM 大模型 API 服务、QuickSilver 大模型生产部署平台等核心产品,持续赋能社区、商业、交易、安全、数平、研效等多个核心业务,实现 AI 技术高效落地! 工作职责: 1、参与/负责研发面向大语言模型(LLM)/多模态大模型(MLLM)等类型模型的推理服务框架; 2、参与/负责KV Router、PD分离/EPD分离、KVCache管理、动态PD调整等分布式推理能力建设; 3、通过并行计算优化、分布式架构优化、异构调度等多种框架技术,打造高效、易用、领先的AI推理框架; 4、参与/负责构建推理框架的系统容错能力,包括但不限于请求迁移、优雅退出、故障检测、自愈等能力建设; 5、深度参与周边深度学习系统多个子方向的工作,包括但不限于模型管理、推理部署、日志/监控、工作流编排等; 6、与全公司各业务算法部门深度合作,为重点项目进行算法与系统的联合优化,支撑业务目标达成。