字节跳动AI芯片系统软件架构师/工程师-NPU

社招全职A2291252025-02-20地点：杭州状态：招聘

扫码手机上打开

任职要求

1、本科及以上学历，计算机、体系结构等相关专业；
2、熟悉Linux C/C++开发，有扎实的编程基础；
3、有GPGPU/NPU芯片项目研发经验，熟悉Nvidia/AMD或国产厂家GPU计算产品，熟悉CUDA/ROCm等GPU软件栈；
4、熟悉计算机体系架构，对深度学习有深入的理解，对GPGPU/NPU/CIM存算体系结构至少熟悉一种，理解其微架构、主要指令集等；…

登录查看完整任职要求

微信扫码，1秒登录

工作职责

1、跟踪GPGPU/NPU行业最新动态、产品与技术架构，分析公司内部业务系统需求，结合自研芯片架构，输出系统软硬件协同设计方案；
2、负责自研AI加速芯片系统软件栈的开发交付，包括芯片设备侧Firmware/Host侧驱动/系统管理诊断工具；
3、负责自研AI加速芯片的NPU/CIM存算方向的软硬协同验证，性能分析优化，基于可编程接口进行算子用例开发；
4、负责NPU IP的软件栈移植适配与集成，包括NPU IP的Firmware/驱动/Runtime/SDK。

📮 投递简历 ✨AI模拟面试

难度：

包括英文材料

学历+

Linux+

C+

还有更多 •••

登录查看完整学习资料

相关职位

蚂蚁集团-运行时Runtime工程师-上海【蚂蚁密算】

社招5年以上技术-基础平台

1、基于自研AI芯片开发Runtimee/UMD软件栈； 2、负责异构调度开发； 3、参与硬件整个设计流程，迭代驱动设计以满足model/emulation/hardware的需求； 4、分析和解决KMD/UMD的功能、性能和稳定性问题，确保高质量软件交付； 5、跟踪行业趋势和实践，持续改进driver的设计和实现；

更新于 2025-10-24上海

高性能计算工程师-(深圳)or(北京)or

社招5年以上CSIG技术

1.超大规模LLM性能工程：主导并规划千亿参数级大模型的极致性能优化技术路线。负责 PagedAttention、连续批处理等核心调度策略的深度定制与生产级架构设计，负责 vLLM/TensorRT-LLM 等主流推理框架的内核级优化与落地； 2.低比特与稀疏模型优化：牵头 INT4/FP8/AWQ 等前沿低比特量化技术的工业级系统化落地，平衡精度与计算效率。并设计面向 MoE 模型的分布式调度、路由、显存管理及跨卡通信的优化方案； 3.统一与多模态架构：定义并设计一套具备长期扩展性的统一 AI 推理引擎架构，以支撑自回归生成任务，并前瞻性地解决多模态大模型（如视觉-语言模型）的协同推理部署挑战； 4.异构算力与国产化适配：主导推理引擎在国产AI芯片（如昇腾、海光、天数等）平台上的战略级移植、生态适配与性能优化。对 HCCL/NCCL 等通信原语进行深度优化和定制，实现跨异构架构的算力自主可控； 5.核心算子优化与指令架构创新 (Enhanced Focus):深度介入 GPU/NPU 硬件底层，主导设计和实现LLM特有高性能算子。重点包括：高性能Attention Kernel、矩阵乘法（GEMM）的深度定制与融合、KV Cache读写优化等关键算子； 6.具备深入理解和利用硬件指令集架构（ISA）和微架构（Microarchitecture）的能力，通过 CUDA/Triton 或国产芯片底层编程语言，进行SIMD/SIMT指令优化、指令级并行（ILP）及寄存器重用等，将LLM推理性能推向硬件理论极限。

更新于 2025-12-09上海

新业务部-AI建模开发工程师

社招M8976

1、负责对自研NPU进行架构和性能建模工作 2、通过Cmodel等方式参与芯片架构探索、瓶颈分析和性能评估 3、协同软硬件开发，联调 4）参与研发性能和功耗分析及优化工作。

更新于 2024-01-24上海|北京

SoC系统软件架构师/工程师-高速接口

社招5年以上A51271

1、负责字节跳动自研芯片的系统软件架构设计和优化，参与重点模块的开发调试，支撑芯片最终产品在字节跳动数据中心大规模上线，并参与分析和解决线上重点问题； 2、负责SoC芯片BSP/驱动设计开发，负责硅前硬件仿真平台上的软硬件联调验证，硅后芯片调出和产品化； 3、洞察行业最新趋势，分析业界最新发布的产品，结合业务需求和自研芯片架构，为芯片软硬件协同设计提供有价值的输入。

更新于 2024-09-04北京