小鹏汽车异构AI编译软件栈开发

社招全职芯片板块2025-09-23地点：上海状态：招聘

扫码手机上打开

任职要求

1、熟悉Clang与LLVM编译框架，熟悉SIMT编译优化经验，熟悉CUDA C兼容是加分项；
2、熟悉Triton/IREE/Torch-MLIR/ONNX-MLIR/TPU-MLIR等是加分项；
3、熟悉Tilelang/MLC-LLM/Relay/Relax/Ansor等是加分项；
4、熟悉Cutlass/Cute/Cute DSL/CuTile/TensorRT/TensorRT-LLM等是加分项；
5、熟悉大模型编译部署优化，尤其是跨级优…

登录查看完整任职要求

微信扫码，1秒登录

工作职责

1、GPGPU特定的指令编译方案设计与开发，包含指令选择、指令调度等；
2、针对大模型的下一代AI编译器设计与开发，包括图编译、Cost-Model、低bit量化算法等；
3、Triton、Tilelang、Cutlass/Cute、Cute DSL/CuTile、Torch(torch.compile)等AI生态软件适配与支持；

📮 投递简历 ✨AI模拟面试

难度：

包括英文材料

编译原理+

C+++

LLVM+

CUDA+

OpenCL+

HPC+

还有更多 •••

登录查看完整学习资料

相关职位

阿里云智能-异构硬件推理加速专家-AI领域

社招2年以上云智能集团

● 面向 NVIDIA GPU、AMD GPU、NPU 等主流异构 AI 加速硬件，对大模型核心算子进行深度性能优化，极致压榨计算与访存带宽资源，显著提升端到端推理吞吐量与延迟表现。 ● 设计并实现高精度、极低比特（如 INT4/INT2）量化内核，在保障推理精度的前提下，大幅降低模型存储占用与计算开销，推动大模型在资源受限场景下的高效部署。 ● 针对大规模分布式推理场景，研发计算-通信协同优化技术，有效隐藏通信延迟，提升多卡/多节点系统的可扩展性与资源利用率。 ● 紧跟大模型架构前沿演进，针对稀疏 MoE、线性注意力（Linear Attention）、稀疏注意力（Sparse Attention）等新型结构，开展端到端性能建模、算子定制与内核级优化，为下一代高性能推理引擎提供核心技术支撑。

更新于 2026-01-19北京|杭州|上海

AI异构硬件推理优化专家-Seed

社招A66485B

团队介绍：字节跳动Seed团队成立于2023年，致力于寻找通用智能的新方法，追求智能上限，为科技和社会发展作出贡献。 Seed团队在AI领域拥有长期愿景与决心，团队研究方向涵盖MLLM、GenMedia、AI for Science、机器人等，在中国、新加坡、美国等地设有实验室和岗位；目前，团队已推出业界领先的通用大模型以及前沿的多模态能力，支持豆包、即梦、TRAE等超过50个应用场景，并通过火山引擎开放给企业客户；第三方数据显示，豆包App用户量在中国市场排名第一，豆包大模型日均Token调用量行业领先。 1、该岗位面向超大规模AI加速卡集群，负责豆包Seed自研LLM模型的推理业务落地，深度参与分布式推理框架优化、高性能算子开发与在线稳定性建设，支撑豆包和火山引擎的大规模在线业务流量； 2、业务Serving上线：参与豆包Seed自研LLM模型在超大规模AI加速卡集群上的部署、适配、性能调优和稳定性建设； 3、推理框架优化：优化调度、Batching、KV Cache、显存管理、分布式并行、负载均衡、投机推理、稀疏计算和量化等核心链路； 4、高性能算子与通信优化：面向不同异构硬件ISA开发和优化Attention、GEMM、量化、通算融合等关键LLM算子。

更新于 2026-06-03上海

2027AIDU-AI异构计算研发工程师(J99964)

校招AIDU项目

我们致力于构建全球领先的AI异构计算加速引擎和加速平台。建立融合推理（Inference）、训练（Training）的软硬件一体的AI计算加速解决方案，并应用于行业最大的规模的AI数据中心，解决云计算、搜索、信息流、图像、视觉、语音、自然语言处理等的算法优化与计算加速问题。 1. 负责大规模AI前向计算引擎（Inference Engine）框架和底层算子开发与优化； 2. 负责大规模AI计算通信库及通信算法开发与优化； 3. 负责面向CPU/GPU/FPGA/ASIC等多元化计算架构的编译系统开发、编译优化和算法加速； 4. 负责异构高性能计算平台的设计、研发，高性能计算库、通信库开发与优化。

更新于 2026-07-21北京|上海

LongCat - 异构算力 AI 工程师

社招1年以上核心本地商业-基

1. 围绕大模型异构算力集群，尤其是国产算力集群，面向大模型训练和推理场景支持算力评估、适配和落地维护，具体包括分布式优化框架，AI框架，网络集合通信，算子等方面内容 2. 负责大模型分布式优化框架的系统分析，性能调优，特性开发，问题定位等工作，支持常见的大模型分布式优化框架 3. 负责PyTorch在异构算力下系统分析，性能调优，问题定位等工作 4. 负责常见的大模型场景下高性能Kernel算子的关键指标分析和统计，融合开发，性能优化等工作 5. 负责大模型超万卡规模的集合通信/NCCL关键指标分析和统计，系统定位/调优等工作 6. 负责多种算力的Benchmark评测，对比验证，性能分析等工作

更新于 2026-05-28北京|上海