小米顶尖应届 - 处理器架构工程师 - 芯片
任职要求
1、精通计算机体系结构核心理论(流水线/缓存/多核一致性),熟悉RISC-V/ARM/x86微架构设计; 2、熟练使用Verilog/Chisel,掌握Gem5/VCS等工具链,有RTL设计或芯片流片经验者优先; 3、顶会论文(ISCA/MICRO等)或开源项目经历,具备系统级思维和颠覆性创新意识优先; 4、在以下至少一个方向有深度研究: a,高性能计算(GPU/NPU加速器); b,内存系统(Cache一致性/存算一体); c,能效优化(近阈值计算/DVFS); d,安全架构(TEE/侧信道防护); 5、 具有较强英文文献阅读能力,能够熟练撰写高质量技术报告; 6、 具有良好的沟通能力和语言表达能力、具有较强的学习和研究能力。
工作职责
1、参与或主导主流BP算法及微架构分析; 2、参与或主导设计新型BP算法及微架构制定,并进行CA model论证; 3、参与或主导新型BP算法的RTL实现及后续系统调优;
1、参与或主导Vector/Matrix单元微架构和算子设计,并进行性能、功耗论证; 2、参与或主导Vector/Matrix单元RTL实现与调优; 【课题名称】 通用处理器Vector及Matrix计算单元微架构及算法研究。 【课题内容】 背景:随着AI芯片在深度学习领域的爆发式应用,专用加速器在特定场景下展现出显著优势。然而通用处理器作为计算生态的核心底座,仍需在混合计算负载支持、能效比优化及异构协同能力等维度持续突破: 1. AI规模化部署需求:边缘计算、云边端协同等场景要求通用处理器高效处理AI预处理、逻辑控制与非结构化任务; 2. 摩尔定律放缓倒逼创新:在制程红利递减背景下,需通过微架构革新提升单位晶体管效能; 3. 异构计算融合趋势:通用处理器需与AI加速器深度协同,构建"CPU+XPU"的动态计算网络; 关键挑战: 1. 通用性与效率的平衡 如何在支持多样化指令集的同时,保持对AI算子(如矩阵乘、张量计算)的高效加速; 2. 动态资源调度复杂性 多任务场景下的缓存一致性、乱序执行、分支预测等机制需重构优化; 3. 异构计算通信瓶颈 跨架构内存共享、任务分配策略、低延迟互连协议设计; 4. 能效比突破困境 在先进制程逼近物理极限时,如何通过近似计算、存算一体等架构创新实现能效跃升;
1.通过分析LMbench/GKB/SpecCPU等benchmark,提取手机/车/等DOU场景典型切片,形成一套适用于EDA和原型平台的性能验证的切片方法学; 2.建立性能模型和EDA/EMU平台归一化的Top down性能度量指标,用于快速性能分析和定位, 探索适合复杂CPU的性能分析方法学; 3.建立基于EDA的Top性能验证平台,通过短切片实现EDA层面的快速性能迭代和校准,通过EDA仿真在RTL开发阶段发现各类性能瓶颈,不断推动CPU微架构调优; 4.建立基于EMU原型的性能验证平台,通过典型切片和Cycle accurate Performance model校准性能,基于Top down的指标实现快速迭代。