logo of aliyun

阿里云阿里云智能-AI加速计算产品技术研发专家-杭州/上海

社招全职5年以上技术类-开发地点:杭州 | 上海状态:招聘

任职要求


1. 计算机科学、电子工程、通信工程、电气工程等相关专业背景;精通PythonShellC/C++等开发语言,拥有至少5年的相关工作经验;
2. 深入理解GPGPU芯片架构及服务器架构,熟悉PCIe规范、Linux内核、KVM虚拟化技术,并对GPU驱动、系统性能分析及其优化有丰富经验;
3. 具备容器化服务的经验,了解容器化资源管控或作业调度机制;
4. 有GPU驱动开发(如OpenCLCUDA、RoCM)、GPU编译器优化以及AI性能调优经验者将被优先考虑;
5. 熟悉分布式并行计算、集合通信机制,以及分布式计算网络的设计与性能优化工作的候选人更佳;
6. 展现出优秀的团队合作精神,积极主动的学习态度和沟通能力,具备良好的自我管理能力,对新技术保持高度的热情。

工作职责


1. 依据公共云统一架构、OpenAPI规范、软件技术栈以及交付运维体系,负责专属云产品的研发与交付。深度参与灵骏裸金属服务器及EGS云计算服务器的研发流程,包括硬件架构预研、方案设计、软硬件结合的系统优化、线上服务质量保证以及提供专家技术支持等关键环节,确保产品从研发到运维的全生命周期高效管理。
2. 跟踪并把握GPU架构设计的发展趋势,探索前沿的GPU架构设计技术。联合高性能网络团队共同设计网络互联架构,针对分布式训练和推理业务场景,在软硬件协同及高性能网络方向上寻找性能优化的新途径,构建阿里云加速计算云服务器的核心竞争力。
3. 研发并持续改进系统的稳定性和安全性,确保平台的安全可靠运行,并不断提升对外服务质量标准。
包括英文材料
Python+
Bash+
C+
C+++
Linux+
内核+
OpenCL+
CUDA+
性能调优+
相关职位

logo of aliyun
社招5年以上技术类-开发

1. 参与kuberGPU软件产品的设计与研发,包括kuberGPU软件的迭代研发,性能评估及优化,兼容性提升,新GPU的适配等。 2. 负责kuberGPU在云上的落地,包括与相关团队沟通和协调对接和部署工作,以及针对专属云做对应的kuberGPU软件的适配工作。 3. 保障kuberGPU产品在云上的的稳定性,包括定位和分析上线后遇到的问题,及时进行故障排查和修复。 4. 针对客户的需求和未来业内技术趋势,为业务方提供新的技术支持和建议,并作出高可用、高可靠、高拓展性的技术架构规划和落地。

更新于 2025-06-18
logo of aliyun
社招3年以上云智能集团

1. 训练加速系统设计与优化 1) 主导千亿参数大模型的分布式训练架构设计,优化通信效率,突破显存与计算瓶颈。 2) 研发长序列训练加速技术,支持百万级上下文窗口训练,降低计算复杂度与内存占用。 3) 设计混合精度训练方案(FP16/FP8)与梯度累积策略,结合模型并行、流水线并行等技术,提升训练吞吐量 30% 以上。 2. 推理系统优化与工程化落地 1) 构建高性能推理引擎,基于 vLLM、TensorRT-LLM 等框架实现多模态模型的分布式推理,支持 MoE 架构与动态专家激活策略。 2) 研发模型压缩技术(量化、剪枝、LoRA),将端到端延迟降低,同时保持模型精度损失 3. 基础设施全流程优化 1) 优化训练与推理的 I/O 性能,通过异步并发、缓存预取等技术减少数据加载耗时。 2) 设计训练 - 推理一体化监控平台,实时追踪模型性能指标(如训练 loss 波动、推理 QPS),实现异常自动告警与弹性扩缩容。

更新于 2025-09-18
logo of aliyun
社招5年以上技术类-开发

以数据库引擎PolarDB/ADB/Lindorm为数据存储和计算底座,基于此构建in-DB的数据库垂类AI服务. 具体围绕: A.    数据库AI算子的开发。算法研发方向重点为自然语言技术在数据库上的应用。围绕自然语言转SQL/NL2SQL,基于RAG和行业知识的推理逻辑加强,图/知识库自动构建,实体与关系的分析挖掘,和基于Model Context Protocol的数据库AI agent能力。 尤其是在DATA+AI方向具有显著行业数据计算属性的量化金融的国内数据库市场,优化AI推理和针对交易数据的in-DB智能高性能计算算子,以增强阿里云数据库引擎产品在国内量化金融市场的影响力, 并支持数据库引擎团队打下新市场。 B.     适合数据库相对资源受限计算情况下的复杂AI算子推理加速, 并对传统数据库执行计划在新置AI算子的新情境下进行性能联合优化。 围绕transformer架构的推理加速(KVCache, SGlang, vLLM和)等关键AI推理框架的系统底层优化,开发数据库在量化金融市场中的高性能计算和系统框架, 支持AI高性能算子并提供丰富的量化金融算法包。 C. 在数据库和人工智能顶级会议上发表研究论文, 推高阿里云在这两个关键研究领域的影响力。

更新于 2025-05-19
logo of aliyun
社招5年以上云智能集团

1. 基于对目前主流AI芯片的深刻理解,分析硬件系统结构,提供软硬件优化实践和调优指南; 2. 了解市场上主流AI,大数据,HPC应用对异构计算系统设计的挑战,应用AI加速芯片,设计打造高效异构计算产品; 3. 聚焦异构资源在线性能分析,负责系统级性能分析和业务瓶颈定位,助力异构集群的极致稳定; 4. 实现异构计算基础设施serverless化,驱动异构云原生架构演进; 5. 洞悉人工智能及深度学习的应用发展趋势,参与下一代机器学习算力产品设计。

更新于 2025-07-16