理想汽车NPU编译器架构师

社招全职5年以上智能与信息技术地点：上海状态：招聘

扫码手机上打开

任职要求

1、教育背景：计算机科学、EE、数学或相关专业硕士及以上学历。
2、技术能力：深入理解计算机体系结构，熟悉SIMD、多核并行、内存层级优化等特性。
3、熟悉AI计算并行特征，roofline理论等，具备5年以上编译器开发经验，熟悉LLVM、MLIR、GCC等编译框架，有基于NPU/GPU/ASIC等架构的AI编译器开发…

登录查看完整任职要求

微信扫码，1秒登录

工作职责

负责设计和构建自研NPU编译器及工具链的核心架构；特别是跨模块接口设计、硬件抽象定义、编程模型设计、关键性能考量等方面。
1、编译器架构设计：聚焦于编译器（包含运行时）各模块间的接口设计。
硬件抽象定义：定义合理的NPU硬件抽象，在跨平台和发掘硬件效率之间找到最佳平衡。
2、开发者界面定义：定义编程模型和工具链界面，提升自定义算子开发和模型适配效能。
3、前沿技术研究：跟踪编译器技术（如MLIR、LLVM）、AI芯片架构及深度学习框架的最新进展，探索创新性解决方案。

📮 投递简历 ✨AI模拟面试

难度：

包括英文材料

学历+

LLVM+

还有更多 •••

登录查看完整学习资料

相关职位

高级芯片编译软件工程师

社招5-12年SOFTWARE

1. 负责AI NPU编译器架构设计以及开发 2. 根据硬件架构分析算法模型性能瓶颈，并进行编译优化 3. 基于开源指令集开发自定义高效算子 4. 与其他部门合作完成AI工具链整合

更新于 2025-10-20上海

芯片编译软件工程师

社招3-10年SOFTWARE

更新于 2025-10-20上海

NPU架构工程师

社招8年以上芯片序列

（以下一项或多项）： 1、与主架构师一起定义加速器架构，尤其是Tensor计算和Matrix计算加速器的架构 2、对计算加速器的PPA指标负责，对加速器的技术竞争力和业界领先性负责 3、对加速器进行架构建模，探索最优架构，做相应的算子性能分析和优化 4、与工具链编译器协同对加速器的可编程性和可部署性负责，提升编程开发的易用性，降低模型部署成本 5、参与规划定义关键场景，进行端到端的架构分析 6、参与AI处理器的PPA模型开发 7、参与竞争分析，输出技术方面的竞争分析结果。

更新于 2025-12-23北京|上海

高性能计算工程师-(深圳)or(北京)or

社招5年以上CSIG技术

1.超大规模LLM性能工程：主导并规划千亿参数级大模型的极致性能优化技术路线。负责 PagedAttention、连续批处理等核心调度策略的深度定制与生产级架构设计，负责 vLLM/TensorRT-LLM 等主流推理框架的内核级优化与落地； 2.低比特与稀疏模型优化：牵头 INT4/FP8/AWQ 等前沿低比特量化技术的工业级系统化落地，平衡精度与计算效率。并设计面向 MoE 模型的分布式调度、路由、显存管理及跨卡通信的优化方案； 3.统一与多模态架构：定义并设计一套具备长期扩展性的统一 AI 推理引擎架构，以支撑自回归生成任务，并前瞻性地解决多模态大模型（如视觉-语言模型）的协同推理部署挑战； 4.异构算力与国产化适配：主导推理引擎在国产AI芯片（如昇腾、海光、天数等）平台上的战略级移植、生态适配与性能优化。对 HCCL/NCCL 等通信原语进行深度优化和定制，实现跨异构架构的算力自主可控； 5.核心算子优化与指令架构创新 (Enhanced Focus):深度介入 GPU/NPU 硬件底层，主导设计和实现LLM特有高性能算子。重点包括：高性能Attention Kernel、矩阵乘法（GEMM）的深度定制与融合、KV Cache读写优化等关键算子； 6.具备深入理解和利用硬件指令集架构（ISA）和微架构（Microarchitecture）的能力，通过 CUDA/Triton 或国产芯片底层编程语言，进行SIMD/SIMT指令优化、指令级并行（ILP）及寄存器重用等，将LLM推理性能推向硬件理论极限。

更新于 2025-12-09上海