阿里云阿里云智能-推理引擎内核研发专家(SGLang)--AI领域
任职要求
- 计算机、人工智能等相关专业本科及以上学历,具备扎实的计算机体系结构与并行计算基础 - 精通 C/C++、Python 编程,熟练使用常用性能分析和调试工具 - 熟悉并有实际使用经验的主流推理框架,如 SGLang、vLLM、TensorRT-LLM、lightllm等 - 掌握 GP…
工作职责
- 参与大模型推理引擎(基于 SGLang 框架)的设计与核心模块开发,支持 Transformer、MoE、DiffusionLLM 等多种架构及 LLM/VLM 等模型的高性能推理。 - 运用编译优化、低比特计算、投机采样、稀疏计算、分布式推理等技术,加速大模型推理速度并降低部署成本, 并优化其稳定性、易用性。 - 针对 GPU/AI 芯片架构(含自研硬件),开展针对性性能调优,优化算子、内存管理、KV Cache 管理等核心模块 - 与算法、产品及业务团队协作,推动不同模型场景下的系统端到端性能优化 - 关注并引入前沿大模型推理技术,参与 SGLang 及相关开源生态的维护与贡献
● 面向 NVIDIA GPU、AMD GPU、NPU 等主流异构 AI 加速硬件,对大模型核心算子进行深度性能优化,极致压榨计算与访存带宽资源,显著提升端到端推理吞吐量与延迟表现。 ● 设计并实现高精度、极低比特(如 INT4/INT2)量化内核,在保障推理精度的前提下,大幅降低模型存储占用与计算开销,推动大模型在资源受限场景下的高效部署。 ● 针对大规模分布式推理场景,研发计算-通信协同优化技术,有效隐藏通信延迟,提升多卡/多节点系统的可扩展性与资源利用率。 ● 紧跟大模型架构前沿演进,针对稀疏 MoE、线性注意力(Linear Attention)、稀疏注意力(Sparse Attention)等新型结构,开展端到端性能建模、算子定制与内核级优化,为下一代高性能推理引擎提供核心技术支撑。
1.负责打造业界领先的数据库推理大模型,通过技术创新实现云数据库研发、应用、运维的全线自动化与智能化; 2.构建全大模型训推一体化技术栈,确保数据库推理大模型能够自主提升性能和准确性; 3.深入研究和优化大模型的训练方法,提高模型的效率和效果; 4.与团队合作,持续改进和扩展大模型的应用范围,提升产品的智能化水平。
底层推理基础设施建设:负责 GPU / TPU 集群管理、异构资源调度与高性能网络优化 实现弹性伸缩、自动修复与多机多卡高效并行。推理引擎深度优化:基于 vLLM、TensorRT-LLM、DeepSpeed-Inference、Pagoda 等框架进行分片并行、张量并行、量化(FP8 / INT4)与编译优化。算法 × 工程协同:与算法工程师联合设计离线训练、在线推理的完整链路,推进模型版本管理、灰度发布、回滚与 A/B 测试,确保模型效果与系统稳定性的双重 SLA。高性能存储与缓存:架设高速并行文件系统或 KV-Store,优化 KV-Cache 热点、RDMA / RoCE 网络,降低 I/O 与通信开销。Observability & SRE:构建完整的 Metrics / Tracing / Logging 体系(Prometheus、Grafana、Jaeger、Loki),定义 SLO / SLI 并实施容量规划。技术前瞻与研究:持续跟踪新硬件(H100, MI300, Grace Hopper)、编译器(TVM, XLA, One-Inference)与调度算法,推动架构演进。