阿里云阿里云智能-异构计算软硬件结合开发专家-杭州/深圳
任职要求
1. 具备扎实的工程能力,精通C++和Python等编程语言,熟悉 sglang/vLLM等主流LLM推理框架优化的技术。 2. 熟悉主流AI加速芯片的系统结构、指令集和计算特性,具备异构计算硬件下的开发和性能优化经验。 …
工作职责
1.负责分析硬件加速特征与内部拓扑结构,设计硬件优化实践和调优方案,并主导优化实现,充分发挥硬件潜能,确保性能符合预期。 2.结合主流LLM推理框架 (如sglang/vLLM) 和 大模型结构及计算特征,设计面向框架性能分析和优化插件并主导实现。 3.提供场景化的定制优化能力,识别并解决大模型在不同业务场景下的性能瓶颈,快速的给出满足需求的性能优化方案,并推动业务的交付应用。 4.洞悉大模型的发展趋势和硬件技术演进,结合软硬件优化的经验和数据,分析硬件的发展趋势,提炼AI硬件规格需求,形成软硬结合技术规划。
1. 针对整机柜服务器产品进行全面的计算、互联、监控等能力的全面赋能和开发; 2. 寻找适合于整机柜异构服务器产品的业务产品并进行对应的昆仑组件设计和开发,包含性能评测分析、容器镜像等 3. 针对整机柜硬件架构及业务落地场景,构建故障异常case并能设计故障诊断方案; 4. 负责跟踪及研究主流GPU架构设计技术,参与下一代AI Infra的设计; 5. 根据业务画像,构建有竞争力的异构硬件和系统全链路的量化分析,形成数据决策数据库;有效推动异构服务器产品的规划和落地。
1. 针对整机柜超节点服务器,全面赋能计算、互联、监控、故障及性能诊断等核心能力; 2. 梳理适配超节点异构服务器产品的业务场景,开展对应的昆仑组件设计与开发,涵盖性能评测分析、容器镜像等关键模块; 3. 基于整机柜硬件架构及典型业务落地场景,构建典型故障与异常案例库,并设计相应的故障诊断方案; 4. 负责跟踪与研究主流GPU架构设计技术,参与下一代AI Infra的规划与设计; 5. 结合业务画像,构建面向异构硬件与系统的全链路量化分析模型,形成数据驱动的决策数据库,有效推动异构服务器产品的规划与规模化落地。
1. 基于对目前主流AI芯片的深刻理解,分析硬件系统结构,提供软硬件优化实践和调优指南; 2. 了解市场上主流AI,大数据,HPC应用对异构计算系统设计的挑战,应用AI加速芯片,设计打造高效异构计算产品; 3. 聚焦异构资源在线性能分析,负责系统级性能分析和业务瓶颈定位,助力异构集群的极致稳定; 4. 实现异构计算基础设施serverless化,驱动异构云原生架构演进; 5. 洞悉人工智能及深度学习的应用发展趋势,参与下一代机器学习算力产品设计。
1、面向智算异构架构的操作系统协同研发,深度参与面向下一代智能操作系统架构设计与实现,聚焦 CPU/GPU/DPU 等异构硬件平台,重点覆盖任务调度、设备抽象、资源隔离等关键子系统,支撑大规模训练与高并发推理业务的稳定高效运行。 2、AI 软件栈与操作系统深度融合优化,结合主流 AI 软件栈从系统层面构建 System for AI 的端到端优化能力,针对大模型训练/推理中的通信瓶颈、显存压力、资源调度等场景,设计 OS 层面的调度策略、缓存机制与资源管控方案,提升整体吞吐、降低尾延迟、优化单位算力成本。 3、操作系统计算方向技术规划,跟踪学术界与工业界在 AI 系统软件领域的业界进展,结合云上真实业务负载,制定操作系统在调度、隔离、虚拟化、性能、能效等方向的技术演进路线。 4、确保操作系统研发方案交付满足业务预期,稳定性和性能符合基础软件的质量指标要求。 5、积极参与 Linux 内核上游社区、vllm/SGlang/Mooncake 等 AI 场景基础软件社区,包括团队相关技术领域专利/论文贡献,提升上游社区贡献度和团队技术影响力。