阿里巴巴大规模分布式训练推理加速及核心基础设施软硬协同优化-阿里星
校招全职阿里控股2026届秋季应届生招聘地点:北京 | 杭州状态:招聘
任职要求
1. 分布式系统、计算机体系结构、编译优化或通信与计算协同设计方向的硕/博士研究生。 2. 具备AI训推计算性能分析与优化的经验,能深入分析AI模型在GPU平台上的性能瓶颈,提出并实施优化方案。针对分布式训练和推理系统,进行性能调优,提升系统的吞吐量和效率。 3. 熟悉业界常见的优化栈(cuda/rocm/cutlass/ck/triton等),在高效的内存管理、通信优化(NvLink/Infiniband/R…
登录查看完整任职要求
微信扫码,1秒登录
工作职责
随着大模型与生成式AI的爆发式增长,AI基础设施正面临前所未有的性能、规模与效率挑战。该岗位致力于培养构建下一代AI系统底座的领军人才,具备软硬协同、跨层优化的知识面和技术深度,支撑集团核心AI业务的训练推理提效、集群资源调度及异构算力协同优化,推动AI技术的边界突破。核心问题包括但不限于: 1. 极致性能优化:探索算法、训推引擎和基础设施的co-design协同突破效率瓶颈,最大化算力、网络和存储等硬件性能。 2. 高性能网络:负责设计、实现、维护AI和高性能计算所需要的高性能网络通信框架和大模型推理场景的性能优化,聚焦模型通信场景的能力建设,完善集合通信、点对点通信等通信方式与推理框架的联合方案设计,推动提升推理性能。 3. 智能资源调度:针对大规模分布式的LLM/多模态理解生成训练推理等新兴计算场景,优化多集群多地域的异构调度编排能力,实现分钟级模型分发、训推任务弹性伸缩等。 4. 其他随着AI模型、训推范式、算力硬件等迭代演进而出现的AI系统优化工程挑战和业界难题。
包括英文材料
分布式系统+
https://www.distributedsystemscourse.com/
The home page of a free online class in distributed systems.
https://www.youtube.com/watch?v=7VbL89mKK3M&list=PLOE1GTZ5ouRPbpTnrZ3Wqjamfwn_Q5Y9A
性能调优+
https://goperf.dev/
The Go App Optimization Guide is a series of in-depth, technical articles for developers who want to get more performance out of their Go code without relying on guesswork or cargo cult patterns.
https://web.dev/learn/performance
This course is designed for those new to web performance, a vital aspect of the user experience.
https://www.ibm.com/think/insights/application-performance-optimization
Application performance is not just a simple concern for most organizations; it’s a critical factor in their business’s success.
https://www.oreilly.com/library/view/optimizing-java/9781492039259/
Performance tuning is an experimental science, but that doesn’t mean engineers should resort to guesswork and folklore to get the job done.
还有更多 •••