logo of aliyun

阿里云阿里云智能-大模型异构推理优化技术专家-AI领域

社招全职2年以上云智能集团地点:北京 | 杭州 | 上海状态:招聘

任职要求


● 具备扎实的工程实现能力与良好的代码规范,熟练掌握 PythonC++,熟悉常用设计模式,能够独立完成复杂系统的架构设计、开发与调试。
● 拥有丰富的高性能计算内核Kernel)开发经验,精通 CUDA / Triton / ROCm 等异构编程模型,有基于 CUTLASS、CUTE 等框架进行算子开发与极致性能调优…
登录查看完整任职要求
微信扫码,1秒登录

工作职责


● 面向 NVIDIA GPU、AMD GPU、NPU 等主流异构 AI 加速硬件,对大模型核心算子进行深度性能优化,极致压榨计算与访存带宽资源,显著提升端到端推理吞吐量与延迟表现。
● 设计并实现高精度、极低比特(如 INT4/INT2)量化内核,在保障推理精度的前提下,大幅降低模型存储占用与计算开销,推动大模型在资源受限场景下的高效部署。
● 针对大规模分布式推理场景,研发计算-通信协同优化技术,有效隐藏通信延迟,提升多卡/多节点系统的可扩展性与资源利用率。
● 紧跟大模型架构前沿演进,针对稀疏 MoE、线性注意力(Linear Attention)、稀疏注意力(Sparse Attention)等新型结构,开展端到端性能建模、算子定制与内核级优化,为下一代高性能推理引擎提供核心技术支撑。
包括英文材料
Python+
C+++
设计模式+
系统设计+
内核+
CUDA+
还有更多 •••
相关职位

logo of aliyun
社招5年以上云智能集团

● 为大语言模型和多模态模型设计和实现高效的分布式推理架构,支持多节点、多角色、多模型的异构复杂部署模式,以统一、可扩展的方式支持PD分离、多模态多模型分离等部署方式,以及灵活的配比、伸缩等能力。 ● 设计和实现智能的请求与模型调度能力,在高度动态的负载工况下以及多模态模型异构的子模型间做高效的调度,让分布式推理系统具备充分的动态性和适应能力,提升服务的整体效率和质量。 ● 对分布式和多模态推理引擎运行时进行深度优化,提升分布式推理的效率和稳定性:提升组件间协调的效率,降低请求延迟、提升服务吞吐;结合各类推理引擎层面优化以及量化等算法方法提升多模态模型推理效率,同时保证模型效果;提升系统在高并发下的鲁棒性,确保极端负载下的稳定性和性能;引入容错机制、自动恢复和监控报警系统,保证系统的高可用性。 ● 为分布式推理实现高效、通用的数据平面,以统一的方式支持各类数据传输(如PD分离中的KV cache、多模态推理中的中间结果)和存储(KV cache storage)等需求。 ● 持续关注并跟进业界技术发展,尤其是超长上下文、COT思维链、多模态融合等方向;积极尝试和探索新的推理优化方向,提出并验证创新性的解决方案。

更新于 2025-12-16北京|杭州
logo of aliyun
社招5年以上云智能集团

阿里云PAI团队致力于打造业界一流的一站式AI工程化平台,拥有万卡级训练能力与超大规模异构资源调度技术,为复杂模型训练与推理任务构建坚实基座。PAI平台不仅是通义大模型研发与落地的核心基础设施,也作为公共云服务的关键载体,支撑众多行企业构建大模型核心业务。平台提供从数据标注、预处理、模型训练、推理服务到开发环境与工作流调度的全链路工程支持,全面覆盖AI项目从实验探索到规模化落地的完整价值链。作为Web前端工程师,您将深度参与平台前端体系的构建与持续演进,具体职责涵盖以下方面: 1. 协同产品与设计团队,负责AI平台控制台的前端开发,覆盖标注、训练、推理、编排、监控、开发环境等核心场景,打造专业、易用的交互体验。 2. 面向AI交互场景演进与算力资源类型升级,持续推动前端架构重构与性能优化,提升系统响应速度与操作流畅度。 3. 联合测试、运维与技术支持团队,确保前端系统稳定可靠、兼容性强、易于维护,并能快速响应与修复线上问题。 4. 参与AI Coding、WebIDE、智能Agent、AIGC等方向的前端预研与落地,积极探索下一代AI开发体验的创新路径。

更新于 2025-11-24北京
logo of aliyun
社招5年以上云智能集团

1.负责阿里云容器平台在AI基础设施与应用架构方向的产品研发与技术演进。 2.主导大规模异构资源(GPU/NPU/RDMA等)集群的调度、管理与性能优化,提升资源利用效率、系统稳定性与运行性能。 3.构建面向AI与Agent应用的Serverless容器算力产品。 4.基于Kubernetes打造面向大模型训练/推理、大规模数据处理及Agent应用的云原生基础设施产品与解决方案。 5.推动云原生AI领域前沿技术预研、落地及开源生态建设,持续引领技术创新与行业实践。

更新于 2025-12-06北京|杭州
logo of aliyun
社招5年以上云智能集团

1. 针对整机柜超节点服务器,全面赋能计算、互联、监控、故障及性能诊断等核心能力; 2. 梳理适配超节点异构服务器产品的业务场景,开展对应的昆仑组件设计与开发,涵盖性能评测分析、容器镜像等关键模块; 3. 基于整机柜硬件架构及典型业务落地场景,构建典型故障与异常案例库,并设计相应的故障诊断方案; 4. 负责跟踪与研究主流GPU架构设计技术,参与下一代AI Infra的规划与设计; 5. 结合业务画像,构建面向异构硬件与系统的全链路量化分析模型,形成数据驱动的决策数据库,有效推动异构服务器产品的规划与规模化落地。

更新于 2025-11-26北京|杭州