logo of aliyun

阿里云阿里云智能-AI工程系统性能优化专家-北京/杭州

社招全职5年以上云智能集团地点:北京 | 杭州状态:招聘

任职要求


1. 熟悉深度学习框架、分布式训练和推理技术框架(如deepseed、fsdp、megatronvllmsglang);
2. 熟悉AI系统的性能分析工具(如Nsight、PyTorch Profiler等);…
登录查看完整任职要求
微信扫码,1秒登录

工作职责


1. 负责灵骏集群的AI系统性能分析与优化,支持多类型客户多个AI作业场景在不同平台芯片和多种集群规模下的适配和性能调优,能快速且以工具/产品化方式识别性能瓶颈并提出解决方案;
2. 参与主流训练和推理框架的调优开发,优化分布式训练和推理引擎的底层实现;构建性能调优工具链,降低算法工程师的优化门槛;
3. 开发高性能CUDA/Triton算子,优化计算密集型任务(如矩阵乘法、Attention机制)。
包括英文材料
深度学习+
Megatron+
vLLM+
SGLang+
还有更多 •••
相关职位

logo of aliyun
社招3年以上云智能集团

● 设计和实现高效的分布式推理架构,提升多节点、多GPU环境下的推理速度和资源利用率。开发智能的请求调度算法,确保高并发场景下的最优响应时间和吞吐量。对推理引擎的运行时环境进行深度优化,减少延迟,提高整体性能。针对多种异构AI加速硬件(如NVIDIA GPU, AMD GPU, NPU等),对核心算子进行极致性能优化,最大化算力和访存带宽利用率。 ● 探索并实现极低bit量化技术和稀疏化,减少模型存储和计算资源消耗,同时保持推理精度。探索更高效的解码算法,提升生成任务的推理速度。 ● 设计并实现能够处理大规模并发请求的系统架构,确保极端负载下的稳定性和性能。引入容错机制、自动恢复和监控报警系统,保证系统的高可用性和稳定性。构建灵活的系统架构,支持动态扩展,以应对未来业务增长和技术演进的需求。 ● 持续关注并跟进业界技术发展,尤其是超长上下文、COT思维链、多模态融合等方向。积极尝试和探索新的推理优化方向,提出并验证创新性的解决方案。

更新于 2025-09-10北京|杭州|上海
logo of aliyun
社招5年以上技术类-开发

1. 参与kuberGPU软件产品的设计与研发,包括kuberGPU软件的迭代研发,性能评估及优化,兼容性提升,新GPU的适配等。 2. 负责kuberGPU在云上的落地,包括与相关团队沟通和协调对接和部署工作,以及针对专属云做对应的kuberGPU软件的适配工作。 3. 保障kuberGPU产品在云上的的稳定性,包括定位和分析上线后遇到的问题,及时进行故障排查和修复。 4. 针对客户的需求和未来业内技术趋势,为业务方提供新的技术支持和建议,并作出高可用、高可靠、高拓展性的技术架构规划和落地。

更新于 2025-06-18北京|杭州|上海
logo of aliyun
社招8年以上云智能集团

1. 针对整机柜服务器产品进行全面的计算、互联、监控等能力的全面赋能和开发; 2. 寻找适合于整机柜异构服务器产品的业务产品并进行对应的昆仑组件设计和开发,包含性能评测分析、容器镜像等 3. 针对整机柜硬件架构及业务落地场景,构建故障异常case并能设计故障诊断方案; 4. 负责跟踪及研究主流GPU架构设计技术,参与下一代AI Infra的设计; 5. 根据业务画像,构建有竞争力的异构硬件和系统全链路的量化分析,形成数据决策数据库;有效推动异构服务器产品的规划和落地。

更新于 2025-09-09北京|杭州
logo of aliyun
社招5年以上云智能集团

1. 负责算力引入的前置测试,主要包含整机压测,部件性能测试,多机训练/推理单集群多品牌机器混部场景测试。 2. 负责算力引入GPU软硬件结合的疑难故障&性能问题分析和解决。 3. 负责GPU压测,监控,故障诊断工具开发和优化。 4. 负责主流模型和应用在新异构系统上的性能评测和分析。 5. 负责分析大规模LLM在训练和推理中面临的的AI异构硬件系统瓶颈,提出面向未来的AI异构系统架构建议,以支撑更高效的LLM扩展。

更新于 2025-11-26北京|杭州