logo of aliyun

阿里云阿里云智能-异构硬件推理加速专家-AI领域

社招全职2年以上云智能集团地点:北京 | 杭州 | 上海状态:招聘

任职要求


● 具备扎实的工程实现能力与良好的代码规范,熟练掌握 PythonC++,熟悉常用设计模式,能够独立完成复杂系统的架构设计、开发与调试。
● 拥有丰富的高性能计算内核Kernel)开发经验,精通 CUDA / Triton / ROCm 等异构编程模型,有基于 CUTLASS、CUTE 等框架进行算子开发与极致性能调优…
登录查看完整任职要求
微信扫码,1秒登录

工作职责


● 面向 NVIDIA GPU、AMD GPU、NPU 等主流异构 AI 加速硬件,对大模型核心算子进行深度性能优化,极致压榨计算与访存带宽资源,显著提升端到端推理吞吐量与延迟表现。
● 设计并实现高精度、极低比特(如 INT4/INT2)量化内核,在保障推理精度的前提下,大幅降低模型存储占用与计算开销,推动大模型在资源受限场景下的高效部署。
● 针对大规模分布式推理场景,研发计算-通信协同优化技术,有效隐藏通信延迟,提升多卡/多节点系统的可扩展性与资源利用率。
● 紧跟大模型架构前沿演进,针对稀疏 MoE、线性注意力(Linear Attention)、稀疏注意力(Sparse Attention)等新型结构,开展端到端性能建模、算子定制与内核级优化,为下一代高性能推理引擎提供核心技术支撑。
包括英文材料
Python+
C+++
设计模式+
系统设计+
内核+
CUDA+
还有更多 •••
相关职位

logo of aliyun
社招3年以上云智能集团

● 设计和实现高效的分布式推理架构,提升多节点、多GPU环境下的推理速度和资源利用率。开发智能的请求调度算法,确保高并发场景下的最优响应时间和吞吐量。对推理引擎的运行时环境进行深度优化,减少延迟,提高整体性能。针对多种异构AI加速硬件(如NVIDIA GPU, AMD GPU, NPU等),对核心算子进行极致性能优化,最大化算力和访存带宽利用率。 ● 探索并实现极低bit量化技术和稀疏化,减少模型存储和计算资源消耗,同时保持推理精度。探索更高效的解码算法,提升生成任务的推理速度。 ● 设计并实现能够处理大规模并发请求的系统架构,确保极端负载下的稳定性和性能。引入容错机制、自动恢复和监控报警系统,保证系统的高可用性和稳定性。构建灵活的系统架构,支持动态扩展,以应对未来业务增长和技术演进的需求。 ● 持续关注并跟进业界技术发展,尤其是超长上下文、COT思维链、多模态融合等方向。积极尝试和探索新的推理优化方向,提出并验证创新性的解决方案。

更新于 2025-09-10北京|杭州|上海
logo of antgroup
社招3年以上技术-开发

蚂蚁ASystem致力于打造下一代AI基础软件,并基于下一代的AI基础软件寻找通用智能的新方法,追求智能上限。 1、负责训推一体框架的设计与开发,服务蚂蚁内部的强化学习场景; 2、建设面向训推一体的显存管理体系和高性能数据存储方案; 3、负责实时高性能训推系统设计与开发,如分布式训练加速策略、算子融合、编译优化、模型量化、混合精度、异构硬件加速等; 4、负责整体性能优化与架构升级,持续提升训练/推理性能; 5、与算法工程师深度合作,为重点项目进行算法与系统的联合优化。

更新于 2026-01-07北京|杭州|上海
logo of aliyun
社招3-5年云智能集团

弹性计算异构AI推理团队,承担着构建阿里云IAAS资源在公共云竞争力的职责。在AI领域,团队对接业界主要AI用户的业务需求,承接提升GPU、AI加速器等芯片在AI场景的竞争力职责。和团队一起通过专家领域知识和软硬件分析能力构建阿里云在AI场景的核心竞争力和加速解决方案。 1. 负责基于云上AI真实场景的解决方案和性能分析系统建设,构建性能标尺。 2. 负责基于云上大规模推理场景的构建和底层软件性能优化工作。 3. 负责包括CIPU、GPU、AI加速器等硬件在阿里云AI场景的竞争力构建。 4. 与厂商和内部业务团队合作,为阿里云的AI用户提供具有竞争力的AI解决方案。

更新于 2025-07-15北京|杭州|上海
logo of aliyun
社招5年以上云智能集团

1.负责分析硬件加速特征与内部拓扑结构,设计硬件优化实践和调优方案,并主导优化实现,充分发挥硬件潜能,确保性能符合预期。 2.结合主流LLM推理框架 (如sglang/vLLM) 和 大模型结构及计算特征,设计面向框架性能分析和优化插件并主导实现。 3.提供场景化的定制优化能力,识别并解决大模型在不同业务场景下的性能瓶颈,快速的给出满足需求的性能优化方案,并推动业务的交付应用。 4.洞悉大模型的发展趋势和硬件技术演进,结合软硬件优化的经验和数据,分析硬件的发展趋势,提炼AI硬件规格需求,形成软硬结合技术规划。

更新于 2025-09-22深圳|杭州