小红书深度学习推理优化-AI编译器方向
社招全职3年以上引擎地点:北京 | 上海状态:招聘
任职要求
1. 计算机及相关专业本科以上学历,3年以上AI编译器研发经验。 2. 精通C/C++,具备扎实的系统底层能力(内存、并发、网络)。 3. 熟悉XLA/LLVM/MLIR/TVM/IREE/Triton/Torch Inductor/TileLang等AI编译基础设施和相关工具链。 4. 熟悉TensorFlow Serving、TensorRT、OpenXLA、ONNX Runtime…
登录查看完整任职要求
微信扫码,1秒登录
工作职责
【部门介绍】引擎架构部提供小红书搜广推,CV和NLP业务的深度学习模型高性能推理服务。主导SOTA推理引擎的架构设计与核心模块开发,支撑搜广推业务在长序列建模、生成式推荐、Agent等前沿场景在GPU,XPU等异构计算部件上规模落地。 1. 参与推理引擎的架构设计与核心模块的开发,参与AI编译器前后端的设计与实现,优化IR Compile模式下DSL特征处理引擎和AI推理引擎的性能。 2. 分析I/O性能瓶颈、优化编译耗时和codegen性能,改进编译优化算法,不断优化编译器,解决编译部署问题。 3. 优化IR Compile模式下搜广推、长序列、多模态、MoE等深度学习模型的推理效率。 4. 针对GPU/NPU等异构计算芯片,探索基于IR编译优化的片内多部件并行流水线等前沿技术,构建业界影响力。
包括英文材料
学历+
C+
https://www.freecodecamp.org/chinese/news/the-c-beginners-handbook/
本手册遵循二八定律。你将在 20% 的时间内学习 80% 的 C 编程语言。
https://www.youtube.com/watch?v=87SH2Cn0s9A
https://www.youtube.com/watch?v=KJgsSFOSQv0
This course will give you a full introduction into all of the core concepts in the C programming language.
https://www.youtube.com/watch?v=PaPN51Mm5qQ
In this complete C programming course, Dr. Charles Severance (aka Dr. Chuck) will help you understand computer architecture and low-level programming with the help of the classic C Programming language book written by Brian Kernighan and Dennis Ritchie.
C+++
https://www.learncpp.com/
LearnCpp.com is a free website devoted to teaching you how to program in modern C++.
https://www.youtube.com/watch?v=ZzaPdXTrSb8
LLVM+
https://llvm.org/docs/GettingStarted.html
Welcome to the LLVM project!
https://llvm.org/docs/tutorial/
This is the “Kaleidoscope” Language tutorial, showing how to implement a simple language using LLVM components in C++.
https://mcyoung.xyz/2023/08/01/llvm-ir/
“LLVM” is an umbrella name for a number of software components that can be used to build compilers.
https://www.youtube.com/watch?v=Lvc8qx8ukOI
This is the first lecture from the "Programming Language with LLVM" course where we build a full programming language similar to JavaScript from scratch, using LLVM compiler infrastructure.
Triton Inference Server+
https://docs.nvidia.com/deeplearning/triton-inference-server/user-guide/docs/index.html
Triton Inference Server is an open source inference serving software that streamlines AI inferencing.
TensorFlow+
https://www.youtube.com/watch?v=tpCFfeUEGs8
Ready to learn the fundamentals of TensorFlow and deep learning with Python? Well, you’ve come to the right place.
https://www.youtube.com/watch?v=ZUKz4125WNI
This part continues right where part one left off so get that Google Colab window open and get ready to write plenty more TensorFlow code.
TensorRT+
https://docs.nvidia.com/deeplearning/tensorrt/latest/getting-started/quick-start-guide.html
This TensorRT Quick Start Guide is a starting point for developers who want to try out the TensorRT SDK; specifically, it demonstrates how to quickly construct an application to run inference on a TensorRT engine.
还有更多 •••
相关职位
社招5年以上云智能集团
你将加入PAI平台团队,负责面向各类AI应用场景的模型训练与推理性能优化工作。该岗位聚焦于AI计算性能与系统效率的极致提升,以多层次优化手段,持续提升模型训练与推理的速度、稳定性与资源利用率,具体工作内容包含但不限于: ● 分析客户模型在不同硬件(GPU、NPU、CPU 等)和集群环境中的性能瓶颈,制定优化方案; ● 对主流深度学习框架(如 PyTorch、TensorFlow、JAX 等)进行算子、内核或图优化; ● 深入理解分布式训练架构(如数据并行、模型并行、流水并行等),优化通信与调度性能; ● 在推理端负责模型性能瓶颈分析,并进行量化、剪枝、融合、TensorRT/ONNX Runtime 等优化; ● 与平台团队协作,优化训练任务调度、算力利用、容器化运行效率以及多租户资源隔离; ● 支持重点客户模型性能调优,提供端到端性能优化方案与技术支持。
更新于 2025-11-17北京|杭州|上海
社招技术大类
1.负责 TapTap 离线训练、在线推理框架的优化与开发,服务于公司各个业务线,如搜索、推荐、广告、AI 等业务; 2.与公司各算法部门深度合作,分析业务性能瓶颈和系统架构特征,软硬件结合优化,实现极致性能; 3.设计和实现机器学习相关的基础设施/算法框架/工具链等,并推动落地到业务中; 4.探索业界前沿的机器学习相关技术,持续提升平台能力,降低算法使用成本。
更新于 2025-11-19上海
社招2年以上大数据(数据计算
1.针对各类推理场景,负责GPU/AI芯片底层性能优化与调优; 2.优化和扩展vLLM、SGLang、PyTorch等框架的核心模块,提升计算效率与资源利用率; 3.深入分析GPU/AI芯片的硬件架构特性,设计并实现高性能算子、算法和特性使能组件; 4.探索前沿技术方向(如混合专家模型MOE、动态计算图编译优化等)。
更新于 2026-03-26北京