理想汽车NPU编译器架构师
任职要求
1、教育背景:计算机科学、EE、数学或相关专业硕士及以上学历。 2、技术能力:深入理解计算机体系结构,熟悉SIMD、多核并行、内存层级优化等特性。 3、熟悉AI计算并行特征,roofline理论等,具备5年以上编译器开发经验,熟悉LLVM、MLIR、GCC等编译框架,有基于NPU/GPU/ASIC等架构的AI编译器开发…
工作职责
负责设计和构建自研NPU编译器及工具链的核心架构;特别是跨模块接口设计、硬件抽象定义、编程模型设计、关键性能考量等方面。 1、编译器架构设计:聚焦于编译器(包含运行时)各模块间的接口设计。 硬件抽象定义:定义合理的NPU硬件抽象,在跨平台和发掘硬件效率之间找到最佳平衡。 2、开发者界面定义:定义编程模型和工具链界面,提升自定义算子开发和模型适配效能。 3、前沿技术研究:跟踪编译器技术(如MLIR、LLVM)、AI芯片架构及深度学习框架的最新进展,探索创新性解决方案。
1. 负责AI NPU编译器架构设计以及开发 2. 根据硬件架构分析算法模型性能瓶颈,并进行编译优化 3. 基于开源指令集开发自定义高效算子 4. 与其他部门合作完成AI工具链整合
1. 负责AI NPU编译器架构设计以及开发 2. 根据硬件架构分析算法模型性能瓶颈,并进行编译优化 3. 基于开源指令集开发自定义高效算子 4. 与其他部门合作完成AI工具链整合

(以下一项或多项): 1、与主架构师一起定义加速器架构,尤其是Tensor计算和Matrix计算加速器的架构 2、对计算加速器的PPA指标负责,对加速器的技术竞争力和业界领先性负责 3、对加速器进行架构建模,探索最优架构,做相应的算子性能分析和优化 4、与工具链编译器协同对加速器的可编程性和可部署性负责,提升编程开发的易用性,降低模型部署成本 5、参与规划定义关键场景,进行端到端的架构分析 6、参与AI处理器的PPA模型开发 7、参与竞争分析,输出技术方面的竞争分析结果。
1.超大规模LLM性能工程: 主导并规划千亿参数级大模型的极致性能优化技术路线。负责 PagedAttention、连续批处理等核心调度策略的深度定制与生产级架构设计,负责 vLLM/TensorRT-LLM 等主流推理框架的内核级优化与落地; 2.低比特与稀疏模型优化: 牵头 INT4/FP8/AWQ 等前沿低比特量化技术的工业级系统化落地,平衡精度与计算效率。并设计面向 MoE 模型的分布式调度、路由、显存管理及跨卡通信的优化方案; 3.统一与多模态架构: 定义并设计一套具备长期扩展性的统一 AI 推理引擎架构,以支撑自回归生成任务,并前瞻性地解决多模态大模型(如视觉-语言模型)的协同推理部署挑战; 4.异构算力与国产化适配: 主导推理引擎在国产AI芯片(如昇腾、海光、天数等)平台上的战略级移植、生态适配与性能优化。对 HCCL/NCCL 等通信原语进行深度优化和定制,实现跨异构架构的算力自主可控; 5.核心算子优化与指令架构创新 (Enhanced Focus):深度介入 GPU/NPU 硬件底层,主导设计和实现LLM特有高性能算子。 重点包括:高性能Attention Kernel、矩阵乘法(GEMM)的深度定制与融合、KV Cache读写优化等关键算子; 6.具备深入理解和利用硬件指令集架构(ISA)和微架构(Microarchitecture)的能力, 通过 CUDA/Triton 或国产芯片底层编程语言,进行SIMD/SIMT指令优化、指令级并行(ILP)及寄存器重用等,将LLM推理性能推向硬件理论极限。