阿里云阿里云智能-异构硬件推理加速专家-AI领域

社招全职2年以上云智能集团2026-01-19地点：北京 | 杭州 | 上海状态：招聘

扫码手机上打开

任职要求

● 具备扎实的工程实现能力与良好的代码规范，熟练掌握 Python 和 C++，熟悉常用设计模式，能够独立完成复杂系统的架构设计、开发与调试。
● 拥有丰富的高性能计算内核（Kernel）开发经验，精通 CUDA / Triton / ROCm 等异构编程模型，有基于 CUTLASS、CUTE 等框架进行算子开发与极致性能调优…

登录查看完整任职要求

微信扫码，1秒登录

工作职责

● 面向 NVIDIA GPU、AMD GPU、NPU 等主流异构 AI 加速硬件，对大模型核心算子进行深度性能优化，极致压榨计算与访存带宽资源，显著提升端到端推理吞吐量与延迟表现。
● 设计并实现高精度、极低比特（如 INT4/INT2）量化内核，在保障推理精度的前提下，大幅降低模型存储占用与计算开销，推动大模型在资源受限场景下的高效部署。
● 针对大规模分布式推理场景，研发计算-通信协同优化技术，有效隐藏通信延迟，提升多卡/多节点系统的可扩展性与资源利用率。
● 紧跟大模型架构前沿演进，针对稀疏 MoE、线性注意力（Linear Attention）、稀疏注意力（Sparse Attention）等新型结构，开展端到端性能建模、算子定制与内核级优化，为下一代高性能推理引擎提供核心技术支撑。

📮 投递简历 ✨AI模拟面试

难度：

包括英文材料

Python+

C+++

设计模式+

系统设计+

内核+

CUDA+

还有更多 •••

登录查看完整学习资料

相关职位

阿里云智能-深度学习推理系统研发专家-机器学习PAI

社招3年以上云智能集团

● 设计和实现高效的分布式推理架构，提升多节点、多GPU环境下的推理速度和资源利用率。开发智能的请求调度算法，确保高并发场景下的最优响应时间和吞吐量。对推理引擎的运行时环境进行深度优化，减少延迟，提高整体性能。针对多种异构AI加速硬件（如NVIDIA GPU, AMD GPU, NPU等），对核心算子进行极致性能优化，最大化算力和访存带宽利用率。 ● 探索并实现极低bit量化技术和稀疏化，减少模型存储和计算资源消耗，同时保持推理精度。探索更高效的解码算法，提升生成任务的推理速度。 ● 设计并实现能够处理大规模并发请求的系统架构，确保极端负载下的稳定性和性能。引入容错机制、自动恢复和监控报警系统，保证系统的高可用性和稳定性。构建灵活的系统架构，支持动态扩展，以应对未来业务增长和技术演进的需求。 ● 持续关注并跟进业界技术发展，尤其是超长上下文、COT思维链、多模态融合等方向。积极尝试和探索新的推理优化方向，提出并验证创新性的解决方案。

更新于 2025-09-10北京|杭州|上海

蚂蚁集团-训推系统研发专家-杭州/北京/上海

社招3年以上技术-开发

蚂蚁ASystem致力于打造下一代AI基础软件，并基于下一代的AI基础软件寻找通用智能的新方法，追求智能上限。 1、负责训推一体框架的设计与开发，服务蚂蚁内部的强化学习场景； 2、建设面向训推一体的显存管理体系和高性能数据存储方案； 3、负责实时高性能训推系统设计与开发，如分布式训练加速策略、算子融合、编译优化、模型量化、混合精度、异构硬件加速等； 4、负责整体性能优化与架构升级，持续提升训练/推理性能； 5、与算法工程师深度合作，为重点项目进行算法与系统的联合优化。

更新于 2026-01-07北京|杭州|上海

阿里云智能-AI Infra 高级研发工程师-北京/杭州/上海

社招3-5年云智能集团

弹性计算异构AI推理团队，承担着构建阿里云IAAS资源在公共云竞争力的职责。在AI领域，团队对接业界主要AI用户的业务需求，承接提升GPU、AI加速器等芯片在AI场景的竞争力职责。和团队一起通过专家领域知识和软硬件分析能力构建阿里云在AI场景的核心竞争力和加速解决方案。 1. 负责基于云上AI真实场景的解决方案和性能分析系统建设，构建性能标尺。 2. 负责基于云上大规模推理场景的构建和底层软件性能优化工作。 3. 负责包括CIPU、GPU、AI加速器等硬件在阿里云AI场景的竞争力构建。 4. 与厂商和内部业务团队合作，为阿里云的AI用户提供具有竞争力的AI解决方案。

更新于 2025-07-15北京|杭州|上海

阿里云智能-异构计算软硬件结合开发专家-杭州/深圳

社招5年以上云智能集团

1.负责分析硬件加速特征与内部拓扑结构，设计硬件优化实践和调优方案，并主导优化实现，充分发挥硬件潜能，确保性能符合预期。 2.结合主流LLM推理框架 (如sglang/vLLM) 和大模型结构及计算特征，设计面向框架性能分析和优化插件并主导实现。 3.提供场景化的定制优化能力，识别并解决大模型在不同业务场景下的性能瓶颈，快速的给出满足需求的性能优化方案，并推动业务的交付应用。 4.洞悉大模型的发展趋势和硬件技术演进，结合软硬件优化的经验和数据，分析硬件的发展趋势，提炼AI硬件规格需求，形成软硬结合技术规划。

更新于 2025-09-22深圳|杭州