logo of aliyun

阿里云阿里云智能-异构硬件推理加速专家-AI领域

社招全职2年以上云智能集团地点:北京 | 杭州 | 上海状态:招聘

任职要求


● 具备扎实的工程实现能力与良好的代码规范,熟练掌握 PythonC++,熟悉常用设计模式,能够独立完成复杂系统的架构设计、开发与调试。
● 拥有丰富的高性能计算内核Kernel)开发经验,精通 CUDA / Triton / ROCm 等异构编程模型,有基于 CUTLASS、CUTE 等框架进行算子开发与极致性能调优…
登录查看完整任职要求
微信扫码,1秒登录

工作职责


● 面向 NVIDIA GPU、AMD GPU、NPU 等主流异构 AI 加速硬件,对大模型核心算子进行深度性能优化,极致压榨计算与访存带宽资源,显著提升端到端推理吞吐量与延迟表现。
● 设计并实现高精度、极低比特(如 INT4/INT2)量化内核,在保障推理精度的前提下,大幅降低模型存储占用与计算开销,推动大模型在资源受限场景下的高效部署。
● 针对大规模分布式推理场景,研发计算-通信协同优化技术,有效隐藏通信延迟,提升多卡/多节点系统的可扩展性与资源利用率。
● 紧跟大模型架构前沿演进,针对稀疏 MoE、线性注意力(Linear Attention)、稀疏注意力(Sparse Attention)等新型结构,开展端到端性能建模、算子定制与内核级优化,为下一代高性能推理引擎提供核心技术支撑。
包括英文材料
Python+
C+++
设计模式+
系统设计+
内核+
CUDA+
还有更多 •••
相关职位

logo of aliyun
社招5年以上云智能集团

● 负责PAI平台资源调度模块的设计与开发,全面支撑模型训练、评估及推理阶段的资源调度需求。 ● 负责GPU、CPU 及其他异构硬件资源的统一编排与高效调度,实现对稳态资源、潮汐资源、混部资源以及多云环境下资源的合理分配与协同利用。 ● 聚焦资源复用与集群利用率提升,结合大模型场景中预训练、后训练、离线推理、评估等任务的负载特征,优化排队策略、优先级管理与抢占机制,最大化整体资源效能。 ● 构建端到端的故障可观测体系,针对训练/推理任务中频发的软硬件异常(如 GPU XID 错误、网络超时、节点失联等),完善日志、指标、事件的采集与关联分析能力,实现问题快速定位与根因追溯。 ● 研发智能诊断与自动容错机制,基于历史故障模式与运行时上下文,开发自动化诊断引擎,支持动态降级、局部重试、弹性扩缩容等策略,减少人工干预,提升作业自愈能力。 ● 打造训练过程可视化与用户体验闭环,建设面向用户的训练状态看板,直观呈现任务健康度、资源使用、通信瓶颈及异常告警,并提供可操作建议,降低使用门槛,加速问题反馈与迭代优化。

更新于 2025-12-16北京|杭州
logo of aliyun
社招5年以上云智能集团

作为通义万相的AI infra训推优化团队,你将有机会参与或负责以下工作内容: ● 对推理引擎的运行时环境进行深度优化,减少延迟,提高整体性能; ● 针对多种异构AI加速硬件,对核心算子进行极致性能优化,结合量化、蒸馏、cache等技术,降低视频推理成本; ● 开发智能的请求调度算法,确保高并发场景下的最优响应时间和吞吐量; ● 持续关注并跟进业界技术发展,积极尝试和探索新的推理优化方向,提出并验证创新性的解决方案。

更新于 2025-12-19北京|杭州
logo of aliyun
社招3-5年云智能集团

弹性计算异构AI推理团队,承担着构建阿里云IAAS资源在公共云竞争力的职责。在AI领域,团队对接业界主要AI用户的业务需求,承接提升GPU、AI加速器等芯片在AI场景的竞争力职责。和团队一起通过专家领域知识和软硬件分析能力构建阿里云在AI场景的核心竞争力和加速解决方案。 1. 负责基于云上AI真实场景的解决方案和性能分析系统建设,构建性能标尺。 2. 负责基于云上大规模推理场景的构建和底层软件性能优化工作。 3. 负责包括CIPU、GPU、AI加速器等硬件在阿里云AI场景的竞争力构建。 4. 与厂商和内部业务团队合作,为阿里云的AI用户提供具有竞争力的AI解决方案。

更新于 2025-07-15北京|杭州|上海
logo of antgroup
社招3年以上技术-开发

蚂蚁ASystem致力于打造下一代AI基础软件,并基于下一代的AI基础软件寻找通用智能的新方法,追求智能上限。 1、负责训推一体框架的设计与开发,服务蚂蚁内部的强化学习场景; 2、建设面向训推一体的显存管理体系和高性能数据存储方案; 3、负责实时高性能训推系统设计与开发,如分布式训练加速策略、算子融合、编译优化、模型量化、混合精度、异构硬件加速等; 4、负责整体性能优化与架构升级,持续提升训练/推理性能; 5、与算法工程师深度合作,为重点项目进行算法与系统的联合优化。

更新于 2026-01-07北京|杭州|上海