理想汽车NPU微架构工程师
任职要求
任职资格: 1、计算机、电子工程及相关专业本科毕业; 2、5年以上芯片架构/前端设计经验; 3、熟练掌握Verilog、 VHDL等设计语言,熟悉片上总线如AMBA等,熟悉crossbar/n…
工作职责
职位描述: 1、理解NPU的设计Spec,完成NPU子系统的微架构设计; 2、进行NPU中重要模块比如指令队列、总线接口、DMA、线性单元等模块的设计; 3、支持验证团队和FPGA仿真团队的验证和仿真,配合验证完成覆盖率的分析与优化; 4、根据需求完成PPA优化; 5、配合FEint和PR工程师完成后端,协助后端团队解决时序和面积问题。
1. 收集并分析典型端侧AI应用场景(如拍照录像、Agent、LLM等)的神经网络模型; 2. 选取典型端侧AI应用场景进行系统级软硬件联合验证; 3. 设计轻量化、高能效的NPU微架构,确定计算单元、控制单元、片上缓存等模块的整体架构方案; 4. 构建指令集及控制机制,支持灵活的操作控制与资源调度; 5. 设计多任务调度机制,支持边缘推理任务的优先级分配与资源共享。 【课题名称】 端侧高效推理NPU架构优化技术研究 【课题内容】 1. 结合端侧设备的功耗、面积和实时性限制,探索轻量化、高能效的NPU微架构设计; 2. 针对常见深度学习算子(卷积、矩阵乘法、注意力机制等)进行硬件友好的重新设计与加速策略研究; 3. 优化片上存储结构(如SRAM/BRAM)以支持高效的数据调度和多任务并行处理; 4. 构建高效的DMA调度机制与片外内存访问控制策略,减少数据传输瓶颈; 5. 研究端侧NPU多任务协同下的推理调度策略,支持任务优先级、时间片切换等机制。
1.超大规模LLM性能工程: 主导并规划千亿参数级大模型的极致性能优化技术路线。负责 PagedAttention、连续批处理等核心调度策略的深度定制与生产级架构设计,负责 vLLM/TensorRT-LLM 等主流推理框架的内核级优化与落地; 2.低比特与稀疏模型优化: 牵头 INT4/FP8/AWQ 等前沿低比特量化技术的工业级系统化落地,平衡精度与计算效率。并设计面向 MoE 模型的分布式调度、路由、显存管理及跨卡通信的优化方案; 3.统一与多模态架构: 定义并设计一套具备长期扩展性的统一 AI 推理引擎架构,以支撑自回归生成任务,并前瞻性地解决多模态大模型(如视觉-语言模型)的协同推理部署挑战; 4.异构算力与国产化适配: 主导推理引擎在国产AI芯片(如昇腾、海光、天数等)平台上的战略级移植、生态适配与性能优化。对 HCCL/NCCL 等通信原语进行深度优化和定制,实现跨异构架构的算力自主可控; 5.核心算子优化与指令架构创新 (Enhanced Focus):深度介入 GPU/NPU 硬件底层,主导设计和实现LLM特有高性能算子。 重点包括:高性能Attention Kernel、矩阵乘法(GEMM)的深度定制与融合、KV Cache读写优化等关键算子; 6.具备深入理解和利用硬件指令集架构(ISA)和微架构(Microarchitecture)的能力, 通过 CUDA/Triton 或国产芯片底层编程语言,进行SIMD/SIMT指令优化、指令级并行(ILP)及寄存器重用等,将LLM推理性能推向硬件理论极限。
1.负责 AI 异构计算平台研发,打造 NLP/视觉/语音 等算法模型跨平台部署全流程优化,实现 AI 算力在微信生态(视频号、小程序、企业微信、微信读书、微信输入法等)的通用化和普惠; 2.分析 CNN、Transformer 等常用结构在微信实际业务场景中的性能瓶颈,在 CPU/GPU/NPU 上完成高性能实现与软硬件协同调优,实现性能极致的跨平台推理引擎; 3.引导算法团队设计性能/功耗兼顾的算法。