阿里云阿里云智能-灵骏异构技术专家-杭州/上海/北京

社招全职5年以上技术类-开发2025-06-18地点：北京 | 杭州 | 上海状态：招聘

扫码手机上打开

任职要求

1. 5年以上异构、GPU领域的研发工作经验。
2.深入掌握GPU计算与调度优化， 包括GPU编程技术（CUDA、ROCm等），熟悉NVIDIA驱动架构或linux开源GPU驱动架构、GPU资源监控工具（如NVIDIA System Management Interface, NVML）及性能调优方法。
3. 精通C/C++编程，有良好的代码习惯，并能通过日志分析、perf等工具快速定位复杂的问题。
4. 熟悉容器化技术（Docker、containerd、CRI-O）及其与GPU资源的集成，对GPU容器运行时（如…

登录查看完整任职要求

微信扫码，1秒登录

工作职责

1. 参与kuberGPU软件产品的设计与研发，包括kuberGPU软件的迭代研发，性能评估及优化，兼容性提升，新GPU的适配等。
2. 负责kuberGPU在云上的落地，包括与相关团队沟通和协调对接和部署工作，以及针对专属云做对应的kuberGPU软件的适配工作。
3. 保障kuberGPU产品在云上的的稳定性，包括定位和分析上线后遇到的问题，及时进行故障排查和修复。
4. 针对客户的需求和未来业内技术趋势，为业务方提供新的技术支持和建议，并作出高可用、高可靠、高拓展性的技术架构规划和落地。

📮 投递简历 ✨AI模拟面试

难度：

包括英文材料

CUDA+

Linux+

性能调优+

C+

还有更多 •••

登录查看完整学习资料

相关职位

阿里云智能-异构GPU实例研发专家-杭州/上海/北京

社招5年以上技术类-开发

1.参与灵骏裸金属服务器及EGS实例的研发工作，包括但不限于早期邀请测试、线上服务质量保证以及性能优化等关键环节，确保产品从研发到上线的全生命周期管理。 2.负责灵骏、EGS和阿里云服务（ACS）GPU的单元测试设计与实现，确保测试覆盖率满足高标准的产品准入和准出要求，为产品质量保驾护航。 3.研发并持续改进系统的稳定性和安全功能，保障平台的安全可靠运行，以应对复杂的网络环境和潜在的安全威胁。

更新于 2025-06-18北京|杭州|上海

阿里云智能-灵骏AI加速计算产品技术专家-上海/杭州

社招5年以上云智能集团

1. 依据公共云统一架构、OpenAPI规范、软件技术栈以及交付运维体系，负责公共云异构计算产品的研发与交付。深度参与研发流程，确保产品从研发到运维的全生命周期高效管理； 2. 跟踪和了解新的异构计算产品技术和趋势，探索前沿的GPU架构设计与技术，理解业务战略及重点，基于业务需求作出高可用、高可靠、高拓展性的技术架构规划和落地； 3. 联合网络团队共同设计网络互联架构，针对分布式训练和推理业务场景，在软硬件协同及高性能网络方向上寻找性能优化的新途径，构建阿里云加速计算云服务器的核心竞争力； 4. 研发并持续改进系统的稳定性和安全性，制定稳定性策略，寻找并解决产品系统中的潜在风险和瓶颈，覆盖线上疑难杂症问题，提高产品稳定性和性能确保平台的安全可靠运行，并不断提升对外服务质量标准。

更新于 2026-01-05杭州|上海

阿里云智能-异构GPU集群资源优化技术专家-杭州

社招5年以上技术类-开发

1. 负责灵骏集群中GPU资源的全面监控、质量巡检及故障预测，通过智能化运维手段确保系统的高可用性和稳定性，提前识别并解决潜在问题； 2. 保障灵骏与集团在线POD的集群资源管理与切分业务，优化资源分配策略，提高资源利用率和任务处理效率，支持大规模分布式计算的需求； 3. 开发和维护KuberGPU技术，实现GPU资源的高效切分与容器化部署，支持包括灵骏客户、集团内部需求以及阿里云服务（ACS）产品在内的多种应用场景，提供灵活且强大的GPU资源共享解决方案； 4. 开发和实施容器热迁移技术，提升集群灵活性和容错能力，确保在不停机的情况下进行系统维护和资源调度，进一步增强用户体验和服务连续性。

更新于 2025-06-18杭州

阿里云智能-AI智算集群监管控算力管理平台技术专家-杭州/北京

社招5年以上技术类-开发

1. 建设灵骏监管控系统核心能力，不断提升客户在云上使用灵骏智算集群产品的自动化、智能化程度。 2. 建设智算集群库存管理、节点调度、性能分析、故障自动化处理、租户运维功能等核心体系能力，持续提升灵骏智算集群产品竞争力。 3. 建设系统自身高可用体系，如管控组件故障自动定位、自动恢复、自适应容灾、云原生技术实施及落地等，保障业务持续可用、保障线上系统稳定性。 4. 建设异构算力统一管理及资源调度系统，持续智算集群资源利用率、降低计算成本。 5. 持续跟踪AI智算、云原生及智能运维领域新技术，结合业务场景进行创新。 6. 该职位涉及值班响应的职责，在服务级别协议（SLA）时间内做出对客响应，推动客户问题的解决，改善客户体验。

更新于 2025-06-18北京|杭州