商汤26届AI领航员-大装置-AI平台推理优化工程师

校招全职技术开发类（智慧面试无法使用）2026-05-21地点：北京 | 杭州 | 上海 | 深圳状态：招聘

扫码手机上打开

任职要求

1. 深度 GPU 性能工程经验
精通 CUDA 内核开发（共享内存 tiling、warp-level primitive、异步 copy）及 Nsight 性能剖析 。
2. 分布式通信与底层网络
熟悉 NCCL/HCCL 内部机制与调优 ，具备 RDMA 编程（libibverbs、GPUDirect RDMA、CAS 原子操作）实战经验 。
3. 大模型推理全栈理解
熟悉 vLLM / TensorRT-LLM / SGLang 或自研引擎内部机制 ，通晓 Transformer…

登录查看完整任职要求

微信扫码，1秒登录

工作职责

我们正在构建全球最具性能密度的「AI推理引擎」 。不止追求单 GPU 峰值利用率，更着眼于在异构加速器上，为前沿大模型提供极致吞吐与最低延迟 。
在这里，你将与团队共同定义下一代生产级 AI 推理的计算原语与优化策略 ，支撑 1.6TB 级 MoE 大模型在生产环境中的百万级上下文落地 。  

岗位描述
1. 高性能内核开发
基于 CUDA/Triton/CUTLASS 开发面向生产的自定义 Attention 内核（支持 GQA/MQA/MLA 及 PagedAttention） ；设计多算子融合策略及端到端低精度（FP8/INT4）量化流水线 。  
2. 分布式推理与 PD 分离
设计基于 RDMA 的去中心化 Prefill/Decode（PD）分离运行时 ；编排多维并行策略（TP/PP/SP/EP），实现计算与通信的极致重叠（Overlap） 。  
3. 多层级 KV Cache 体系
构建 GPU HBM ➔ CPU DRAM ➔ 分布式 SSD 的三层缓存架构，支撑 80-140 个并发百万 Token 长会话 。  
4. 前沿推理范式落地
设计并优化 iteration-level 动态批处理（Continuous Batching）调度器与 Speculative Decoding（推测解码）引擎 。  
5. 性能剖析与自动化
基于 Nsight 工具链建立端到端性能剖析体系 ，利用 Roofline Model 定位瓶颈 ，构建代码合并触发的自动化内核 benchmark 管线 。

📮 投递简历 ✨AI模拟面试

难度：

包括英文材料

Python+

Go+

Java+

C+++

数据结构+

还有更多 •••

登录查看完整学习资料

相关职位

26届AI领航员-大装置-智算云平台产品测试开发工程师

校招技术开发类

大装置智能云，支撑从云基础设施到大模型服务的完整产品体系。欢迎加入测试开发团队，与我们一起打造下一代 AI 基础设施质量标准。参与商汤大装置智能云核心产品的质量保障，包括： 1. 云平台方向（Cloud） · 云服务、容器平台（K8s）、网络/存储服务的功能与稳定性测试 · 自动化测试、接口测试、性能测试、系统级测试 2. 算力平台方向（Compute） · 多集群 GPU/NPU 算力池、调度平台的测试开发 · 压测、稳定性测试、异常场景验证 3. 大模型平台方向（AI Infra / MaaS） · 大模型推理、训练、评估平台的测试 · 模型性能测试、多模态模型验证、推理链路端到端自动化 4. 测试自动化，CI/CD 方向 · 测试框架、测试工具开发 · CI/CD 构建链路优化与集成我们会根据你的能力与兴趣匹配到最合适的产品线。

更新于 2025-12-10北京|杭州|上海

26届AI领航员-大装置-大模型推理优化工程师

校招技术开发类

1.参与开发大模型推理框架，提升系统性能和系统稳定性。 2.对模型性能持续调优，包括不限于高性能算子加速库建设、并行策略开发 3.持续扩充核心框架的功能和计算能力,优化系统的架构和模型设计,保持一定的业务和技术前瞻性。

更新于 2025-09-22北京|上海

26届AI领航员-大装置-集群运维开发工程师

校招技术开发类

方向一：系统运维开发工程师 1.负责开发、测试或生产环境中服务器和应用系统的管理与监控，确保系统的稳定运行； 2.使用夜莺、Prometheus、Grafana等工具进行实时监控和数据分析，及时发现和解决潜在问题。方向二：容器运维开发工程师 1. 协助公司K8s集群及中间件集群的运维； 2. 协助自动化平台、工具的落地开发； 3. 参与云原生技术的调研。

更新于 2025-10-11北京|上海

26届AI领航员-大装置-容器网络开发工程师

校招技术开发类

1、参与云容器网络服务产品功能设计； 2、参与模块代码开发、单元测试和； 3、参与完善CI/CD流程，加快开发迭代速度。

更新于 2025-11-03北京|杭州|上海