logo of aliyun

阿里云阿里云智能-推理引擎内核研发专家(SGLang)--AI领域

社招全职1年以上云智能集团地点:北京 | 杭州 | 上海状态:招聘

任职要求


- 计算机、人工智能等相关专业本科及以上学历,具备扎实的计算机体系结构与并行计算基础 
- 精通 C/C++Python 编程,熟练使用常用性能分析和调试工具 
- 熟悉并有实际使用经验的主流推理框架,如 SGLang、vLLM、TensorRT-LLM、lightllm等 
- 掌握 GP…
登录查看完整任职要求
微信扫码,1秒登录

工作职责


- 参与大模型推理引擎(基于 SGLang 框架)的设计与核心模块开发,支持 Transformer、MoE、DiffusionLLM 等多种架构及 LLM/VLM 等模型的高性能推理。 
- 运用编译优化、低比特计算、投机采样、稀疏计算、分布式推理等技术,加速大模型推理速度并降低部署成本, 并优化其稳定性、易用性。
- 针对 GPU/AI 芯片架构(含自研硬件),开展针对性性能调优,优化算子、内存管理、KV Cache 管理等核心模块 
- 与算法、产品及业务团队协作,推动不同模型场景下的系统端到端性能优化  
- 关注并引入前沿大模型推理技术,参与 SGLang 及相关开源生态的维护与贡献
包括英文材料
学历+
C+
C+++
Python+
还有更多 •••
相关职位

logo of aliyun
社招2年以上云智能集团

● 面向 NVIDIA GPU、AMD GPU、NPU 等主流异构 AI 加速硬件,对大模型核心算子进行深度性能优化,极致压榨计算与访存带宽资源,显著提升端到端推理吞吐量与延迟表现。 ● 设计并实现高精度、极低比特(如 INT4/INT2)量化内核,在保障推理精度的前提下,大幅降低模型存储占用与计算开销,推动大模型在资源受限场景下的高效部署。 ● 针对大规模分布式推理场景,研发计算-通信协同优化技术,有效隐藏通信延迟,提升多卡/多节点系统的可扩展性与资源利用率。 ● 紧跟大模型架构前沿演进,针对稀疏 MoE、线性注意力(Linear Attention)、稀疏注意力(Sparse Attention)等新型结构,开展端到端性能建模、算子定制与内核级优化,为下一代高性能推理引擎提供核心技术支撑。

更新于 2026-01-19北京|杭州|上海
logo of tencent
社招3年以上CSIG技术

1.负责打造业界领先的数据库推理大模型,通过技术创新实现云数据库研发、应用、运维的全线自动化与智能化; 2.构建全大模型训推一体化技术栈,确保数据库推理大模型能够自主提升性能和准确性; 3.深入研究和优化大模型的训练方法,提高模型的效率和效果; 4.与团队合作,持续改进和扩展大模型的应用范围,提升产品的智能化水平。

更新于 2025-06-05成都
logo of futu
社招技术类

底层推理基础设施建设:负责 GPU / TPU 集群管理、异构资源调度与高性能网络优化 实现弹性伸缩、自动修复与多机多卡高效并行。推理引擎深度优化:基于 vLLM、TensorRT-LLM、DeepSpeed-Inference、Pagoda 等框架进行分片并行、张量并行、量化(FP8 / INT4)与编译优化。算法 × 工程协同:与算法工程师联合设计离线训练、在线推理的完整链路,推进模型版本管理、灰度发布、回滚与 A/B 测试,确保模型效果与系统稳定性的双重 SLA。高性能存储与缓存:架设高速并行文件系统或 KV-Store,优化 KV-Cache 热点、RDMA / RoCE 网络,降低 I/O 与通信开销。Observability & SRE:构建完整的 Metrics / Tracing / Logging 体系(Prometheus、Grafana、Jaeger、Loki),定义 SLO / SLI 并实施容量规划。技术前瞻与研究:持续跟踪新硬件(H100, MI300, Grace Hopper)、编译器(TVM, XLA, One-Inference)与调度算法,推动架构演进。

更新于 2025-08-27深圳
logo of aliyun
社招5年以上云智能集团

1、设计并实现高效的AIGC工程/图像/视频处理软硬件一体化方案,参与媒体计算产品全生命周期开发。 2、负责系统性能调优,识别并解决关键瓶颈,提升稳定性与效率。 3、开发和维护底层驱动、基础软件及图像/视频SDK,确保硬件(ASIC/FPGA/GPU)与应用高效协同。

更新于 2025-09-08深圳