小鹏汽车AI多核架构师
任职要求
1.硬件能力 •计算机体系结构 / 微电子 / 通信硕士及以上,5 年以上 GPU / NPU / GPGPU多核架构经验; •至少一次大算力芯片完整项目经验; •熟悉并行编程模型(SIMT、SIMD、SPMD)、Cache Coherence、NoC、Chiplet、DDR/HBM、PCIe/CXL等领域架构知识。 2.软性能力 • 了解 LLM、MoE、Diffusion、稀疏化、量化、Flash-Attention ; • 具备跨团队协调与落地架构的技术沟通能力; • 拥有CUDA,GPGPU架构经验者优先。
工作职责
1.多核系统架构设计 •根据产品需求制定 Core × NoC × Cache × DRAM × Die-to-Die 总体架构; •有能力设计调度,总线,多层Cache存储架构,同步硬件架构。 2.软硬件协同 •与 Compiler / Runtime / 框架团队沟通 Graph Compiler + Kernel Scheduler + 弹性分布式通信库,分解硬件架构需求; •有能力根据 PyTorch / vLLM 等需求做端到端 Benchmark Sign-off。
- 负责超大规模AI芯片中多核架构的设计,包括存储/互联/调度/同步/集成等 - 负责需求分解、微架构设计,撰写设计文档,相关IP的RTL开发与集成 - 协同各团队完成IP/多核系统的PPA优化 - 指导和支持中后端设计团队完成IP/多核系统的物理实现 - 支持芯片回片后的测试、性能/功耗调教等

1、全栈AI系统架构设计 -主导AI软件栈(编译工具链、Runtime、编程模型、驱动)与硬件(ARM/GPU/NPU等)的协同设计,优化模型推理性能与能效。 -在芯片或产品架构定义阶段,将软件需求前置化,提出硬件可编程性、指令集扩展等关键设计建议。 2、技术规划与方案落地 -制定AI技术中长期路线图,评估新兴技术(如稀疏计算、量化编译、异构加速)在业务场景中的可行性。 -推动跨团队(算法、芯片、OS)协作,解决从模型到硬件的部署瓶颈(如算子适配、内存优化)。 3、算法-硬件协同优化 -结合模型结构(如Transformer/CNN)和目标硬件特性(ARM多核/向量指令集),设计定制化加速方案。 -参与前沿算法研究(如轻量化模型设计),确保其与底层硬件的高效匹配。 4、性能调优与工具链开发 -主导AI编译器(如MLIR、TVM)或Runtime的深度优化,提升跨平台部署效率。 -开发性能分析工具,定位系统级瓶颈(如DDR带宽、Cache命中率)。 。
负责设计和构建自研NPU编译器及工具链的核心架构;特别是跨模块接口设计、硬件抽象定义、编程模型设计、关键性能考量等方面。 1、编译器架构设计:聚焦于编译器(包含运行时)各模块间的接口设计。 硬件抽象定义:定义合理的NPU硬件抽象,在跨平台和发掘硬件效率之间找到最佳平衡。 2、开发者界面定义:定义编程模型和工具链界面,提升自定义算子开发和模型适配效能。 3、前沿技术研究:跟踪编译器技术(如MLIR、LLVM)、AI芯片架构及深度学习框架的最新进展,探索创新性解决方案。
1、参与或主导Vector/Matrix单元微架构和算子设计,并进行性能、功耗论证; 2、参与或主导Vector/Matrix单元RTL实现与调优; 【课题名称】 通用处理器Vector及Matrix计算单元微架构及算法研究。 【课题内容】 背景:随着AI芯片在深度学习领域的爆发式应用,专用加速器在特定场景下展现出显著优势。然而通用处理器作为计算生态的核心底座,仍需在混合计算负载支持、能效比优化及异构协同能力等维度持续突破: 1. AI规模化部署需求:边缘计算、云边端协同等场景要求通用处理器高效处理AI预处理、逻辑控制与非结构化任务; 2. 摩尔定律放缓倒逼创新:在制程红利递减背景下,需通过微架构革新提升单位晶体管效能; 3. 异构计算融合趋势:通用处理器需与AI加速器深度协同,构建"CPU+XPU"的动态计算网络; 关键挑战: 1. 通用性与效率的平衡 如何在支持多样化指令集的同时,保持对AI算子(如矩阵乘、张量计算)的高效加速; 2. 动态资源调度复杂性 多任务场景下的缓存一致性、乱序执行、分支预测等机制需重构优化; 3. 异构计算通信瓶颈 跨架构内存共享、任务分配策略、低延迟互连协议设计; 4. 能效比突破困境 在先进制程逼近物理极限时,如何通过近似计算、存算一体等架构创新实现能效跃升;