平头哥平头哥-内存系统架构师-上海/深圳
任职要求
1. 计算机和微电子、集成电路等相关专业,本科以上学历; 2. 具有8年以上计算机架构设计和芯片开发经验; 3. 具有DDR DIMM、LPDDR等内存系统规格定义/架构开发或交付…
工作职责
1. 发现下一代SoC设计内存面临的挑战性架构问题,并提供相应的可行性架构方案; 2. 提供有竞争力的内存系统解决方案,负责内存子系统架构规范的制定和撰写; 3. 与SoC系统,产品业务、固件、设计以及验证团队协同工作,完成内存系统规格和方案制定,参与开发和验收。
1、负责内存芯片(System Cache、SMMU、DDR)及存储器模块的架构设计、优化和性能提升; 2、负责内存管理以及子系统优化,负责多媒体领域内存管理(包含性能优化、内存容量管理等)和性能优化; 3、负责文件系统、老化等系统分析、设计和优化,提升系统性能; 4、洞察行业内存存储技术,研究软硬件前沿技术,输出领域技术规划,推动软硬件协同设计。
1.负责大数据平台的架构设计、开发和优化。优化计算引擎性能,对分布式存储做访问加速优化; 2.能深入分析和优化湖仓计算引擎查询性能,包括动态连接重排序、动态分区剪枝、自动处理数据倾斜和动态优化等; 3.负责分布式存储系统的管理和优化,提升数据访问性能,特别是在存算分离场景下的数据读写访问优化与加速; 4.提高大数据作业的调度和执行效率,包括对Apache Iceberg、Apache Hudi等湖仓关键技术的深入应用和优化; 5.在持续优化系统性能的同时,能确保系统的高可用性和稳定性。
1.超大规模LLM性能工程: 主导并规划千亿参数级大模型的极致性能优化技术路线。负责 PagedAttention、连续批处理等核心调度策略的深度定制与生产级架构设计,负责 vLLM/TensorRT-LLM 等主流推理框架的内核级优化与落地; 2.低比特与稀疏模型优化: 牵头 INT4/FP8/AWQ 等前沿低比特量化技术的工业级系统化落地,平衡精度与计算效率。并设计面向 MoE 模型的分布式调度、路由、显存管理及跨卡通信的优化方案; 3.统一与多模态架构: 定义并设计一套具备长期扩展性的统一 AI 推理引擎架构,以支撑自回归生成任务,并前瞻性地解决多模态大模型(如视觉-语言模型)的协同推理部署挑战; 4.异构算力与国产化适配: 主导推理引擎在国产AI芯片(如昇腾、海光、天数等)平台上的战略级移植、生态适配与性能优化。对 HCCL/NCCL 等通信原语进行深度优化和定制,实现跨异构架构的算力自主可控; 5.核心算子优化与指令架构创新 (Enhanced Focus):深度介入 GPU/NPU 硬件底层,主导设计和实现LLM特有高性能算子。 重点包括:高性能Attention Kernel、矩阵乘法(GEMM)的深度定制与融合、KV Cache读写优化等关键算子; 6.具备深入理解和利用硬件指令集架构(ISA)和微架构(Microarchitecture)的能力, 通过 CUDA/Triton 或国产芯片底层编程语言,进行SIMD/SIMT指令优化、指令级并行(ILP)及寄存器重用等,将LLM推理性能推向硬件理论极限。