通义通义实验室 - 面向生成式AI的大规模在线服务系统全栈性能优化- 阿里星

校招全职通义2026届秋季校园招聘2025-08-07地点：北京 | 杭州 | 上海状态：招聘

扫码手机上打开

任职要求

1. 来自全球Top高校计算机科学、人工智能、数学、物理或相关领域应届博士/顶尖硕士毕业生；在分布式系统、计算机体系结构、操作系统、高性能计算等领域有深入研究者优先。
2. 全栈系统视野与经验：
(1)对大规模在线服务（特别是AI Serving）的架构有深刻理解，具备从应用请求到硬件执行的全链路性能分析、瓶颈定位和调优经验，深刻理解延迟、吞吐量、成本和可用性之间的复杂权衡。
(2)有以下一个或多个领域的研发与优化经验者优先：LLM推理服务系统（如vLLM, Triton, Ray Serve）、AI Agent框架、向量数据库或近似最近邻（ANN）库、图数据库或图计算引擎。
3. 核心系统与底层优化能力：
(1)具备深厚的C++/Python编程能力和扎实的系统编…

登录查看完整任职要求

微信扫码，1秒登录

工作职责

我们正在寻找业界顶尖的系统专家，加入我们的AI基础架构团队，共同设计和构建下一代生成式AI的“在线服务操作系统”。您的使命是解决将前沿AI能力（大模型、AI Agent、多模态等）转化为大规模、高效率、高可用在线服务时所面临的系统性、全栈性挑战。您将负责端到端的服务性能与架构演进，从顶层应用到底层硬件，全面提升AI服务的竞争力。

具体职责包括（若你对以下一个或者多个方向感兴趣均欢迎投递）：
1. 大规模模型服务平台与智能调度系统设计：
(1)负责承载大规模在线模型服务（Serving）平台的核心架构设计与演进，通过对底层推理引擎（如PAI平台提供）的深度适配与协同优化，实现极致的推理吞吐与资源利用率。
(2)设计并实现面向复杂混合负载（长/短序列长度、多Lora、多模型、异构资源、多租户、高/低优先级）的上层智能请求调度与资源管理系统，通过与推理引擎的深度协同，动态调整调度策略，保障服务质量（SLA）并最大化云上服务的性价比。
2. 分布式基础设施与底层硬件优化：
(1)负责面向大规模模型服务的分布式推理拓扑管理与通信计算协同优化，针对张量并行、流水线并行等场景，优化跨节点通信（InfiniBand/RoCE, NVLink），降低端到端延迟。
(2)深入理解GPU、NPU等异构硬件架构与特性，负责从服务层面对底层计算、编译优化（由PAI等引擎团队提供）进行性能评测、分析与反馈，驱动端到端的硬件效能提升。
3. AI应用层运行时与算法协同优化：
(1)深入AI Agent、检索增强生成（RAG）、多模态理解等复杂应用场景，设计并优化其专用的高效运行时（Runtime），解决长链条、多依赖、异步任务流的性能瓶颈。
(2)负责高性能向量检索（Vector Search）与图计算（Graph Computing）引擎的服务化与集成，优化其在RAG和复杂推理场景下的数据访问与计算效率，实现数据层与模型层的无缝高效协同。

📮 投递简历 ✨AI模拟面试

难度：

包括英文材料

分布式系统+

大模型+

vLLM+

Ray+

AI agent+

还有更多 •••

登录查看完整学习资料

相关职位

阿里国际-高级后端开发工程师（搜推广工程）-杭州/北京

社招技术类-开发

业务介绍：我们是阿里巴巴国际数字商业集团的智能技术团队，负责阿里巴巴旗下多个国际化电商平台的搜索、推荐、广告、用增等技术。团队致力于将最前沿的AI技术与国际化电商业务问题深度结合，为用户打造更好更智能化的网上购物体验，同时赋能百万商家实现更高效的经营。选择加入我们意味着投身入于高速发展的国际化电商业务，一起打造最先进的AI技术以驱动全球电商业务发展。岗位描述： 1、负责支持业务迭代：推进来自搜索、推荐、广告、用增各域的产品需求快速落地。 2、负责系统架构设计：负责搜索、推荐、广告引擎的架构设计与优化，支撑多语言场景下的高并发请求处理，满足全球用户低延迟、高可用的服务需求。 3、负责性能调优：针对召回排序、模型训练&推理、特征计算等模块进行工程性能优化（如分布式计算加速、内存管理、GPU资源调度等），提升算法迭代效率。 4、负责工程平台开发：构建算法与工程协同的标准化平台，包括特征实时化平台、在线推理服务框架、AB实验平台等，支持算法快速迭代与业务效果验证。 5、负责大模型工程优化：负责生成式AI技术的工程落地，包含大模型训练、推理加速、多模态内容生成等技术工作。补充说明：同时也招聘面向25年应届毕业的同学；

更新于 2025-04-02北京|杭州

阿里妈妈-AI Training 专家-北京

社招

我们是淘天集团阿里妈妈工程平台团队，致力于打造面向搜推广场景及GenAI与AI Agent应用的AI Infra平台。团队服务于淘天电商广告核心业务，承担广告模型超大规模Embedding表征学习和Sparse-Dense模型及Dense大模型（LLMs/Diffusion等）训练与推理，AI Infra研发和优化等关键职责，在高性能在线服务&训练平台（推荐系统/多模态大模型/大语言模型）、分布式系统（计算/存储/网络）、异构计算和AI编译优化（GPGPU/CPU）等课题上都具有业界前沿的挑战。 1. 负责超大规模Sparse-Dense模型（for 广告）和Dense大模型（for GenAI应用）的训练架构设计优化并推动生产落地。 2. 负责大规模异构硬件Training系统的计算性能与效率优化。 3. Algorithm-Training-Inference Co-Design，整体提升模型效率。

更新于 2025-06-17北京

阿里妈妈-AI Serving高级专家-北京

社招

我们是淘天集团阿里妈妈工程平台团队，致力于打造面向搜推广场景及AIGX应用的业界最强AI在线服务平台。团队服务于淘天电商核心业务，承担广告模型超大规模特征工程和AI推理、LLM/Diffusion等大模型服务的研发和优化等关键职责，在高性能在线服务（推荐系统/多模态大模型/大语言模型）、分布式系统（计算/存储/网络）、异构计算和AI编译优化（CPU/GPU/XPU）等课题上都具有业界最前沿的挑战。 1）负责超大规模生成式模型在线服务系统架构设计并推进落地； 2）负责大规模异构硬件系统inference在离线计算资源优化； 3）负责模型交付pipeline整体优化。

更新于 2025-06-17北京

高性能计算工程师-(深圳)or(北京)or

社招5年以上CSIG技术

1.超大规模LLM性能工程：主导并规划千亿参数级大模型的极致性能优化技术路线。负责 PagedAttention、连续批处理等核心调度策略的深度定制与生产级架构设计，负责 vLLM/TensorRT-LLM 等主流推理框架的内核级优化与落地； 2.低比特与稀疏模型优化：牵头 INT4/FP8/AWQ 等前沿低比特量化技术的工业级系统化落地，平衡精度与计算效率。并设计面向 MoE 模型的分布式调度、路由、显存管理及跨卡通信的优化方案； 3.统一与多模态架构：定义并设计一套具备长期扩展性的统一 AI 推理引擎架构，以支撑自回归生成任务，并前瞻性地解决多模态大模型（如视觉-语言模型）的协同推理部署挑战； 4.异构算力与国产化适配：主导推理引擎在国产AI芯片（如昇腾、海光、天数等）平台上的战略级移植、生态适配与性能优化。对 HCCL/NCCL 等通信原语进行深度优化和定制，实现跨异构架构的算力自主可控； 5.核心算子优化与指令架构创新 (Enhanced Focus):深度介入 GPU/NPU 硬件底层，主导设计和实现LLM特有高性能算子。重点包括：高性能Attention Kernel、矩阵乘法（GEMM）的深度定制与融合、KV Cache读写优化等关键算子； 6.具备深入理解和利用硬件指令集架构（ISA）和微架构（Microarchitecture）的能力，通过 CUDA/Triton 或国产芯片底层编程语言，进行SIMD/SIMT指令优化、指令级并行（ILP）及寄存器重用等，将LLM推理性能推向硬件理论极限。

更新于 2025-12-09上海