logo of aliyun

阿里云阿里云智能-操作系统AI软硬协同优化开发专家(体系结构方向)-成都/杭州

社招全职5年以上云智能集团地点:成都 | 杭州状态:招聘

任职要求


1、体系结构领域的技术储备:精通处理器体系结构(x86 或 arm64)和 PCIe 等总线技术,能够快速掌握主流 GPU 体系结构。具备基于系统微架构的系统软件定性、定量的性能分析能力,能够从体系结构视角针对大语言模型、多模态的训练推理场景开展性能瓶颈分析。
2、稳定性问题的全链路分析能力:精通 Linux 内核和虚拟化,有开源贡献者优先。负责 AI 新机型的业务稳定性问题…
登录查看完整任职要求
微信扫码,1秒登录

工作职责


围绕 AI 场景的系统瓶颈和能力短板,结合存储/DPU/CPU/GPU 的软硬件特性设计协同全栈优化,提升 OS 对 AI Infra 服务的有效可用时长,优化系统吞吐和延迟表现,提升 AI Infra 的综合性价比。
1、AI 优化特性开发:在充分掌握存储/DPU/CPU/GPU 技术栈的基础上,能够完成核心代码的编写和实现,指导团队成员,攻克复杂技术难题,并通过合理的团队分工和代码评审,确保工程落地。
2、参与 AI 新机型的操作系统适配和研发,能够完成新硬件功能代码的移植和优化,攻克复杂技术难题,使得新机型上线符合单租(普通容器形态)和多租(安全容器形态)业务预期。
3、负责制定和优化 AI 新机型研发的交付验收标准,达成业务稳定交付、快速交付和性能优化的目标,持续打造新机型上的系统软件技术竞争力。
4、技术规划:了解学术界工业界 AI Infra 的发展趋势,包括超节点服务器,以及开源社区的相关项目,在深入理解业务场景的前提下,完成操作系统南向软硬件协同优化的技术规划。
包括英文材料
ARM64+
还有更多 •••
相关职位

logo of aliyun
社招5年以上云智能集团

1. 存储和 AI infra 研发,开发和调优高性能通信框架,包括多线程任务调度、零拷贝内存管理、多协议自适应 RPC 等,聚焦云存储(EBS/OSS/DFS/CPFS)与 AI 智算场景的网络基础设施,主导下一代高效稳定的存储网络技术体系构建。 2. 主导 RDMA 技术栈的深度优化,探索 DPU/CIPU 异构计算架构下的软硬协同设计方案,研究Falcon/UET 等新型网络协议的适用场景,推动协议层与存储/计算框架的深度集成。 3. 开发基于 BF3 的智算网络加速方案,实现高带宽低延迟大规模 AI 数据流处理。 4. 参与建设网络框架监控、智能运维体系,在保障网络高性能的同时,兼顾可控、可靠、可视化。

更新于 2025-07-31杭州
logo of aliyun
社招5年以上云智能集团

1. 技术方案设计 ● 了解并分析ECS基础设施(如神龙MoC卡 + 宿主机)在系统稳定性与高可用方面的设计目标; ● 根据业务需求,评估技术可行性,参与方案评审,完成技术选型、功能设计、系统架构、数据结构和开发流程的规划。 2. 技术实现 ● 参与虚拟机故障逃生等创新性技术的研发工作,能根据整体方案拆解任务,独立完成模块设计、编码和系统功能开发; ● 负责故障检测、隔离、恢复、数据一致性校验等核心功能的架构设计和代码实现,持续优化系统性能; ● 参与代码评审和阶段性讨论,通过调试和优化,确保代码高质量交付; ● 负责开发和上线后的系统维护,包括值班响应、问题排查、故障诊断、体验优化、性能与成本调优等; ● 编写必要的技术文档,如操作手册、排障指南、API说明等,支持团队运维和问题处理。 3. 系统稳定性与性能优化 ● 运用优化方法和技术手段,提升系统的安全性、稳定性和运行效率,保障ECS基础设施的可靠运行,改善客户使用体验。 4. 技术预研 ● 跟踪系统可靠性(RAS)和高可用技术的发展趋势,结合实际业务需求,提出可行的技术建议和架构改进方案。 5. 技术规划 ● 深入理解业务方向,结合长期发展需求,制定高可用、高可靠、易扩展的技术架构规划,并推动落地实施。

更新于 2025-09-08北京|杭州|上海
logo of aliyun
社招5年以上云智能集团

1、服务器软硬件一体系统设计与开发:基于产品需求分析,进行整体技术方案设计、开发和验证交付。 2、系统性能优化:对服务器进行软硬件一体性能优化和分析,实现软件系统稳定性/性能的提升。 3、系统测试与维护:对软硬件系统进行集成验证交付,对系统性问题进行分析定位,快速解决,保证满足系统性能、稳定性等要求。

更新于 2025-11-13深圳|杭州
logo of aliyun
社招5年以上云智能集团

1、服务器软硬件一体系统设计与开发:基于产品需求分析,进行软硬件结合系统技术方案设计、开发和验证交付。 2、系统性能优化:对AI场景服务器应用进行软硬件一体性能优化和分析,实现软硬件系统稳定性/性能的提升。 3、系统测试与维护:对软硬件系统进行集成验证交付,对系统性问题进行分析定位,快速解决,保证满足系统性能、稳定性等要求。

更新于 2025-11-13深圳|杭州