小米顶尖应届-NPU架构工程师-芯片

校招全职2025-06-26地点：北京状态：招聘

扫码手机上打开

任职要求

1. 具备电子工程、计算机体系结构、集成电路设计、人工智能芯片等相关专业博士学位；
2. 有扎实的计算机体系结构、数字电路与SoC设计基础，具备端侧AI芯片或NPU相关研究背景者优先；
3. …

登录查看完整任职要求

微信扫码，1秒登录

工作职责

1. 收集并分析典型端侧AI应用场景（如拍照录像、Agent、LLM等）的神经网络模型；
2. 选取典型端侧AI应用场景进行系统级软硬件联合验证；
3. 设计轻量化、高能效的NPU微架构，确定计算单元、控制单元、片上缓存等模块的整体架构方案；
4. 构建指令集及控制机制，支持灵活的操作控制与资源调度；
5. 设计多任务调度机制，支持边缘推理任务的优先级分配与资源共享。

【课题名称】
端侧高效推理NPU架构优化技术研究
【课题内容】
1. 结合端侧设备的功耗、面积和实时性限制，探索轻量化、高能效的NPU微架构设计；
2. 针对常见深度学习算子（卷积、矩阵乘法、注意力机制等）进行硬件友好的重新设计与加速策略研究；
3. 优化片上存储结构（如SRAM/BRAM）以支持高效的数据调度和多任务并行处理；
4. 构建高效的DMA调度机制与片外内存访问控制策略，减少数据传输瓶颈；
5. 研究端侧NPU多任务协同下的推理调度策略，支持任务优先级、时间片切换等机制。

📮 投递简历 ✨AI模拟面试

难度：

包括英文材料

学历+

相关职位

顶尖应届 - 处理器架构工程师 - 芯片

校招

1、参与或主导主流BP算法及微架构分析； 2、参与或主导设计新型BP算法及微架构制定，并进行CA model论证； 3、参与或主导新型BP算法的RTL实现及后续系统调优；

更新于 2025-07-17北京

顶尖应届 - 指令侧处理器架构工程师- 芯片

校招

1、参与或主导Vector/Matrix单元微架构和算子设计，并进行性能、功耗论证； 2、参与或主导Vector/Matrix单元RTL实现与调优；【课题名称】通用处理器Vector及Matrix计算单元微架构及算法研究。【课题内容】背景：随着AI芯片在深度学习领域的爆发式应用，专用加速器在特定场景下展现出显著优势。然而通用处理器作为计算生态的核心底座，仍需在混合计算负载支持、能效比优化及异构协同能力等维度持续突破： 1. AI规模化部署需求：边缘计算、云边端协同等场景要求通用处理器高效处理AI预处理、逻辑控制与非结构化任务； 2. 摩尔定律放缓倒逼创新：在制程红利递减背景下，需通过微架构革新提升单位晶体管效能； 3. 异构计算融合趋势：通用处理器需与AI加速器深度协同，构建"CPU+XPU"的动态计算网络；关键挑战： 1. 通用性与效率的平衡如何在支持多样化指令集的同时，保持对AI算子（如矩阵乘、张量计算）的高效加速； 2. 动态资源调度复杂性多任务场景下的缓存一致性、乱序执行、分支预测等机制需重构优化； 3. 异构计算通信瓶颈跨架构内存共享、任务分配策略、低延迟互连协议设计； 4. 能效比突破困境在先进制程逼近物理极限时，如何通过近似计算、存算一体等架构创新实现能效跃升；

更新于 2025-07-17北京

顶尖应届 - 存储侧处理器架构工程师-芯片

校招

1、参与或主导多核形态探索及缓存微架构及替换算法研究，并进行相关性能、功耗等论证； 2、参与缓存系统RTL设计与系统级调优；

更新于 2025-07-17北京

顶尖应届-软硬件协同开发工程师（SOC）-芯片

校招

1.参与SoC智能调度引擎开发，突破多核异构SoC能效瓶颈，实现设备续航提升20%-30%+； 2.研发基于AI预测模型的动态调度框架，完成CPU/NPU/GPU/DSP混合计算单元毫秒级资源切换与三维能效评估； 3.设计指令级功耗建模工具与自适应DVFS算法，提升典型用户场景10%+的能效提升； 4.深度协同澎湃芯片及小米全栈技术生态，覆盖手机/汽车/机器人等亿级设备，技术成果直通国际顶会转化通道。【课题名称】端侧高效整机性能&能效优化技术研究【课题内容】小米玄戒芯片能效优化与智能调度体系研究课题背景：面对手机/汽车/机器人等多场景的极端能效需求，玄戒SoC芯片需突破多核异构的能效瓶颈，通过智能调度引擎与AI驱动的功耗建模技术，构建"芯片+系统+生态"的三维能效优化体系。结合澎湃系列芯片低功耗研发经验（硬件利润率≤5%原则）及AI实验室全栈技术积累，实现续航提升20%-30%+的行业领先能效比，技术成果直通国际顶会转化通道。挑战： 1. SoC异构计算单元智能调度引擎开发 - 构建基于AI预测模型的动态调度框架，实现CPU/NPU/GPU/DSP混合计算单元的毫秒级资源切换与负载均衡。 - 设计多目标优化算法，在典型用户场景（如多模态交互、自动驾驶感知）中达成计算资源利用率与能效比的协同提升。 2. 指令级功耗建模与自适应能效调控 - 开发面向玄戒O1架构特征的指令级功耗建模工具链，建立微架构-指令-场景的三维能效评估体系。 - 研发自适应DVFS算法与异构缓存协同机制，确保在影像处理、边缘推理等典型场景下实现10%+能效增益。 3. 全栈技术生态协同优化 - 深度整合澎湃芯片家族（C1/G1/S1）的异构调度能力，构建覆盖MIUI系统、车载OS、机器人OS的统一能效优化方案。 - 设计可扩展的调度框架，支持手机/汽车/机器人等设备的差异化能效需求，推动技术方案在IEEE/ACM等顶会的成果转化。

更新于 2025-07-23上海