阿里云阿里云智能-推理引擎内核研发专家(SGLang)--AI领域

社招全职1年以上云智能集团2026-01-19地点：北京 | 杭州 | 上海状态：招聘

扫码手机上打开

任职要求

- 计算机、人工智能等相关专业本科及以上学历，具备扎实的计算机体系结构与并行计算基础 
- 精通 C/C++、Python 编程，熟练使用常用性能分析和调试工具 
- 熟悉并有实际使用经验的主流推理框架，如 SGLang、vLLM、TensorRT-LLM、lightllm等 
- 掌握 GP…

登录查看完整任职要求

微信扫码，1秒登录

工作职责

- 参与大模型推理引擎（基于 SGLang 框架）的设计与核心模块开发，支持 Transformer、MoE、DiffusionLLM 等多种架构及 LLM/VLM 等模型的高性能推理。 
- 运用编译优化、低比特计算、投机采样、稀疏计算、分布式推理等技术，加速大模型推理速度并降低部署成本， 并优化其稳定性、易用性。
- 针对 GPU/AI 芯片架构（含自研硬件），开展针对性性能调优，优化算子、内存管理、KV Cache 管理等核心模块 
- 与算法、产品及业务团队协作，推动不同模型场景下的系统端到端性能优化  
- 关注并引入前沿大模型推理技术，参与 SGLang 及相关开源生态的维护与贡献

📮 投递简历 ✨AI模拟面试

难度：

包括英文材料

学历+

C+

C+++

Python+

还有更多 •••

登录查看完整学习资料

相关职位

阿里云智能-异构硬件推理加速专家-AI领域

社招2年以上云智能集团

● 面向 NVIDIA GPU、AMD GPU、NPU 等主流异构 AI 加速硬件，对大模型核心算子进行深度性能优化，极致压榨计算与访存带宽资源，显著提升端到端推理吞吐量与延迟表现。 ● 设计并实现高精度、极低比特（如 INT4/INT2）量化内核，在保障推理精度的前提下，大幅降低模型存储占用与计算开销，推动大模型在资源受限场景下的高效部署。 ● 针对大规模分布式推理场景，研发计算-通信协同优化技术，有效隐藏通信延迟，提升多卡/多节点系统的可扩展性与资源利用率。 ● 紧跟大模型架构前沿演进，针对稀疏 MoE、线性注意力（Linear Attention）、稀疏注意力（Sparse Attention）等新型结构，开展端到端性能建模、算子定制与内核级优化，为下一代高性能推理引擎提供核心技术支撑。

更新于 2026-01-19北京|杭州|上海

数据库推理大模型高级工程师/专家工程师(成都/杭州)

社招3年以上CSIG技术

1.负责打造业界领先的数据库推理大模型，通过技术创新实现云数据库研发、应用、运维的全线自动化与智能化； 2.构建全大模型训推一体化技术栈，确保数据库推理大模型能够自主提升性能和准确性； 3.深入研究和优化大模型的训练方法，提高模型的效率和效果； 4.与团队合作，持续改进和扩展大模型的应用范围，提升产品的智能化水平。

更新于 2025-06-05成都

AI Infra研发专家

社招技术类

底层推理基础设施建设：负责 GPU / TPU 集群管理、异构资源调度与高性能网络优化实现弹性伸缩、自动修复与多机多卡高效并行。推理引擎深度优化：基于 vLLM、TensorRT-LLM、DeepSpeed-Inference、Pagoda 等框架进行分片并行、张量并行、量化（FP8 / INT4）与编译优化。算法 × 工程协同：与算法工程师联合设计离线训练、在线推理的完整链路，推进模型版本管理、灰度发布、回滚与 A/B 测试，确保模型效果与系统稳定性的双重 SLA。高性能存储与缓存：架设高速并行文件系统或 KV-Store，优化 KV-Cache 热点、RDMA / RoCE 网络，降低 I/O 与通信开销。Observability & SRE：构建完整的 Metrics / Tracing / Logging 体系（Prometheus、Grafana、Jaeger、Loki），定义 SLO / SLI 并实施容量规划。技术前瞻与研究：持续跟踪新硬件（H100, MI300, Grace Hopper）、编译器（TVM, XLA, One-Inference）与调度算法，推动架构演进。

更新于 2025-08-27深圳

阿里云智能-服务器软硬件结合研发专家-深圳

社招5年以上云智能集团

1、设计并实现高效的AIGC工程/图像/视频处理软硬件一体化方案，参与媒体计算产品全生命周期开发。 2、负责系统性能调优，识别并解决关键瓶颈，提升稳定性与效率。 3、开发和维护底层驱动、基础软件及图像/视频SDK，确保硬件（ASIC/FPGA/GPU）与应用高效协同。

更新于 2025-09-08深圳