小米顶尖应届-大模型芯片协同设计研究员-大模型
任职要求
1. 精通机器学习(深度学习),具备卓越的创新研究能力,充满对未知领域的好奇心,热衷于探索前沿技术边界; 2. 编程能力出色,熟练掌握至少两种编程语言,精通Pytorch/Tensorflow,能够将创造性想法快速转化为高效代码; 3. 研究成果丰富,在国际顶级会议或期刊(如NeurIPS、ICLR、ACL、CVPR、COLT等)发表高水平论文,展现独特洞见与技术突破; 4. 在领域内知名比赛中取得优异成绩者优先,体现解决复杂问题的创造力与竞争力; 5. 笃信通用人工智能(AGI)的未来愿景,致力于通过开放协作与持续创新推动AGI发展; 6. 认同开放共进的企业文化,具备敏锐的逻辑思维、卓越的沟通协调能力和自我学习能力,主动负责,严谨细致,勇于挑战常规,追求极致。
工作职责
1. 模型架构优化,适配芯片计算特性; 2. 芯片设计定制,支持高效推理; 3. 量化与压缩技术,降低功耗与延迟; 4. 内存管理优化,提升数据访问效率; 5. 软硬件协同调度,最大化资源利用。 【课题名称】 大模型和芯片协同设计 【课题内容】 本课题拟围绕大模型和端侧芯片co-design系列问题,包括:模型优化、芯片定制、量化压缩、内存管理、软硬件协同。
1. 模型架构优化,适配芯片计算特性; 2. 芯片设计定制,支持高效推理; 3. 量化与压缩技术,降低功耗与延迟; 4. 内存管理优化,提升数据访问效率; 5. 软硬件协同调度,最大化资源利用。 【课题名称】 大模型和芯片协同设计 【课题内容】 本课题拟围绕大模型和端侧芯片co-design系列问题 包括:模型优化、芯片定制、量化压缩、内存管理、软硬件协同。
1、创新应用和模型结构分析和建模:对新MoE模型,Transformer优化模型,非Transformer模型,语音模型,视觉模型进行计算特征,访存特征,通信特征分析建模; 2、推理系统优化技术:基于应用特征,自顶向下分析推理软件栈可优化手段,从推理调度,KV Cache管理,推理引擎,算子,并行切进行协同优化; 3、模型压缩:探索低精度损失的低比特量化(如INT4/INT2量化)或稀疏化等算法,缓解大模型推理计算与内存开销; 4、长序列优化:通过序列压缩、序列并行等算法,在有限的部署资源上(如单机)实现1M甚至10M长序列高效推理; 5、提供高性能轻量级AI推理引擎:分析当前CPU执行AI推理的性能瓶颈,通过先进AI算法技术(比如Sparsicity等)和编译优化技术(auto-tiling等),结合BW芯片众核、大带宽、高矢量的架构特征,挑战性能天花板,推动AI4Compiler技术切实落地。 【课题名称】 大模型负载分析和推理系统优化。 【课题内容】 结合端侧设备的功耗、面积和实时性限制,探索自动优化方法研究,沉淀算子、模型及应用级优化方法,识别加速最优解决方案,并能够实施自动化化优化技术研究&应用。实现计算过程中的高效协同,发挥各类计算单元的有效算力;在算力墙、内存墙、通信墙等各维度平衡取舍发挥系统综合最优性能。
1、参与SoC低功耗整体策略制定与系统设计方案分析; 2、负责低功耗系统框架下全系统状态控制、调频调压、底层温控等技术方案设计开发; 3、负责SoC启动、MCU小系统控制、功耗建模等技术方案设计开发; 4、负责全芯片时钟复位方案设计交付、特殊实现与关键IP技术迭代; 5、支撑EDA/EMU/FPGA验证、IP/子系统功耗优化迭代与回片闭环。 【课题名称】大模型负载分析和推理系统优化 【课题内容】结合端侧设备的功耗、面积和实时性限制,探索自动优化方法研究,沉淀算子、模型及应用级优化方法,识别加速最优解决方案,并能够实施自动化化优化技术研究&应用。 实现计算过程中的高效协同,发挥各类计算单元的有效算力;在算力墙、内存墙、通信墙等各维度平衡取舍发挥系统综合最优性能。