阿里云阿里云智能-异构硬件推理加速专家-AI领域
任职要求
● 具备扎实的工程实现能力与良好的代码规范,熟练掌握 Python 和 C++,熟悉常用设计模式,能够独立完成复杂系统的架构设计、开发与调试。 ● 拥有丰富的高性能计算内核(Kernel)开发经验,精通 CUDA / Triton / ROCm 等异构编程模型,有基于 CUTLASS、CUTE 等框架进行算子开发与极致性能调优…
工作职责
● 面向 NVIDIA GPU、AMD GPU、NPU 等主流异构 AI 加速硬件,对大模型核心算子进行深度性能优化,极致压榨计算与访存带宽资源,显著提升端到端推理吞吐量与延迟表现。 ● 设计并实现高精度、极低比特(如 INT4/INT2)量化内核,在保障推理精度的前提下,大幅降低模型存储占用与计算开销,推动大模型在资源受限场景下的高效部署。 ● 针对大规模分布式推理场景,研发计算-通信协同优化技术,有效隐藏通信延迟,提升多卡/多节点系统的可扩展性与资源利用率。 ● 紧跟大模型架构前沿演进,针对稀疏 MoE、线性注意力(Linear Attention)、稀疏注意力(Sparse Attention)等新型结构,开展端到端性能建模、算子定制与内核级优化,为下一代高性能推理引擎提供核心技术支撑。
● 负责PAI平台资源调度模块的设计与开发,全面支撑模型训练、评估及推理阶段的资源调度需求。 ● 负责GPU、CPU 及其他异构硬件资源的统一编排与高效调度,实现对稳态资源、潮汐资源、混部资源以及多云环境下资源的合理分配与协同利用。 ● 聚焦资源复用与集群利用率提升,结合大模型场景中预训练、后训练、离线推理、评估等任务的负载特征,优化排队策略、优先级管理与抢占机制,最大化整体资源效能。 ● 构建端到端的故障可观测体系,针对训练/推理任务中频发的软硬件异常(如 GPU XID 错误、网络超时、节点失联等),完善日志、指标、事件的采集与关联分析能力,实现问题快速定位与根因追溯。 ● 研发智能诊断与自动容错机制,基于历史故障模式与运行时上下文,开发自动化诊断引擎,支持动态降级、局部重试、弹性扩缩容等策略,减少人工干预,提升作业自愈能力。 ● 打造训练过程可视化与用户体验闭环,建设面向用户的训练状态看板,直观呈现任务健康度、资源使用、通信瓶颈及异常告警,并提供可操作建议,降低使用门槛,加速问题反馈与迭代优化。
作为通义万相的AI infra训推优化团队,你将有机会参与或负责以下工作内容: ● 对推理引擎的运行时环境进行深度优化,减少延迟,提高整体性能; ● 针对多种异构AI加速硬件,对核心算子进行极致性能优化,结合量化、蒸馏、cache等技术,降低视频推理成本; ● 开发智能的请求调度算法,确保高并发场景下的最优响应时间和吞吐量; ● 持续关注并跟进业界技术发展,积极尝试和探索新的推理优化方向,提出并验证创新性的解决方案。
弹性计算异构AI推理团队,承担着构建阿里云IAAS资源在公共云竞争力的职责。在AI领域,团队对接业界主要AI用户的业务需求,承接提升GPU、AI加速器等芯片在AI场景的竞争力职责。和团队一起通过专家领域知识和软硬件分析能力构建阿里云在AI场景的核心竞争力和加速解决方案。 1. 负责基于云上AI真实场景的解决方案和性能分析系统建设,构建性能标尺。 2. 负责基于云上大规模推理场景的构建和底层软件性能优化工作。 3. 负责包括CIPU、GPU、AI加速器等硬件在阿里云AI场景的竞争力构建。 4. 与厂商和内部业务团队合作,为阿里云的AI用户提供具有竞争力的AI解决方案。