logo of alibaba

阿里巴巴研究型实习生-面向下一代AI应用的推理加速方案

实习兼职阿里巴巴研究型实习生地点:北京 | 杭州状态:招聘

任职要求


1. 技术能力:
    a. 具备良好的C++/Python编程基础和代码实践能力。
    b. 熟悉PyTorch。
    c. 对底层技术有浓厚兴趣,渴望深入了解GPU架构与高性能计算。
2. 综合素质:
    a. 具备强烈的求知欲、好奇心和主动性,能快速学习新知识、新工具。
    b. 良好的逻辑思维能力和解决问…
登录查看完整任职要求
微信扫码,1秒登录

工作职责


下一代AI应用场景复杂多样,对推理加速提出迫切需求。我们将系统性探索从服务化优化提升资源效能,到前沿压缩算法设计,再到高性能算子优化等关键层面,致力于构建一套灵活、高效的推理加速体系,为下一代AI技术的广泛落地与创新突破注入强劲动力。在这里,你将拥有充分的探索空间和资源支持,和我们一起挑战具有业界影响力的高价值课题。
核心职责与挑战
我们希望你对技术充满好奇,并具备出色的动手能力。在导师的指导下,你将参与到以下一项或多项富有挑战的工作中:
1. 下一代生成模型推理技术探索:
    a. LLM/MLLM: 探索针对AR的生成特点,探索超高倍投机采样、模型压缩、efficient attention、蒸馏等技术。
    b. Diffusion: 探索sparse attention、cache、采样步数消减等技术。
    c. 软硬结合的优化技术:探索极低比特量化、稀疏计算等硬件依赖的前沿加速技术。
2. 极致性能的推理引擎工程实践:
    a. 深入分析与优化现有推理框架(如vLLM, TensorRT-LLM等)的性能瓶颈,进行从算子到系统层面的全栈优化。
    b. 精通CUDA/CUTLASS/Triton等底层编程技术,针对新型Transformer架构变种,手写高性能算子,压榨硬件的每一分潜力。
    c. 设计和实现高效的KV Cache管理与压缩方案,优化请求调度与批处理策略,最大化系统吞吐并降低延迟。
包括英文材料
C+++
Python+
PyTorch+
还有更多 •••