logo of aliyun

阿里云阿里云智能-操作系统AI软硬协同优化开发专家(体系结构方向)-成都/杭州

社招全职5年以上云智能集团地点:成都 | 杭州状态:招聘

任职要求


1、体系结构领域的技术储备:精通处理器体系结构(x86 或 arm64)和 PCIe 等总线技术,能够快速掌握主流 GPU 体系结构。具备基于系统微架构的系统软件定性、定量的性能分析能力,能够从体系结构视角针对大语言模型、多模态的训练推理场景开展性能瓶颈分析。
2、稳定性问题的全链路分析能力:精通 Linux 内核和虚拟化,有开源贡献者优先。负责 AI 新机型的业务稳定性问题…
登录查看完整任职要求
微信扫码,1秒登录

工作职责


围绕 AI 场景的系统瓶颈和能力短板,结合存储/DPU/CPU/GPU 的软硬件特性设计协同全栈优化,提升 OS 对 AI Infra 服务的有效可用时长,优化系统吞吐和延迟表现,提升 AI Infra 的综合性价比。
1、AI 优化特性开发:在充分掌握存储/DPU/CPU/GPU 技术栈的基础上,能够完成核心代码的编写和实现,指导团队成员,攻克复杂技术难题,并通过合理的团队分工和代码评审,确保工程落地。
2、参与 AI 新机型的操作系统适配和研发,能够完成新硬件功能代码的移植和优化,攻克复杂技术难题,使得新机型上线符合单租(普通容器形态)和多租(安全容器形态)业务预期。
3、负责制定和优化 AI 新机型研发的交付验收标准,达成业务稳定交付、快速交付和性能优化的目标,持续打造新机型上的系统软件技术竞争力。
4、技术规划:了解学术界工业界 AI Infra 的发展趋势,包括超节点服务器,以及开源社区的相关项目,在深入理解业务场景的前提下,完成操作系统南向软硬件协同优化的技术规划。
包括英文材料
ARM64+
还有更多 •••
相关职位

logo of aliyun
社招5年以上云智能集团

1、面向智算异构架构的操作系统协同研发,深度参与面向下一代智能操作系统架构设计与实现,聚焦 CPU/GPU/DPU 等异构硬件平台,重点覆盖任务调度、设备抽象、资源隔离等关键子系统,支撑大规模训练与高并发推理业务的稳定高效运行。 2、AI 软件栈与操作系统深度融合优化,结合主流 AI 软件栈从系统层面构建 System for AI 的端到端优化能力,针对大模型训练/推理中的通信瓶颈、显存压力、资源调度等场景,设计 OS 层面的调度策略、缓存机制与资源管控方案,提升整体吞吐、降低尾延迟、优化单位算力成本。 3、操作系统计算方向技术规划,跟踪学术界与工业界在 AI 系统软件领域的业界进展,结合云上真实业务负载,制定操作系统在调度、隔离、虚拟化、性能、能效等方向的技术演进路线。 4、确保操作系统研发方案交付满足业务预期,稳定性和性能符合基础软件的质量指标要求。 5、积极参与 Linux 内核上游社区、vllm/SGlang/Mooncake 等 AI 场景基础软件社区,包括团队相关技术领域专利/论文贡献,提升上游社区贡献度和团队技术影响力。

更新于 2026-02-10北京|杭州|上海
logo of aliyun
社招5年以上云智能集团

1. 存储和 AI infra 研发,开发和调优高性能通信框架,包括多线程任务调度、零拷贝内存管理、多协议自适应 RPC 等,聚焦云存储(EBS/OSS/DFS/CPFS)与 AI 智算场景的网络基础设施,主导下一代高效稳定的存储网络技术体系构建。 2. 主导 RDMA 技术栈的深度优化,探索 DPU/CIPU 异构计算架构下的软硬协同设计方案,研究Falcon/UET 等新型网络协议的适用场景,推动协议层与存储/计算框架的深度集成。 3. 开发基于 BF3 的智算网络加速方案,实现高带宽低延迟大规模 AI 数据流处理。 4. 参与建设网络框架监控、智能运维体系,在保障网络高性能的同时,兼顾可控、可靠、可视化。

更新于 2025-07-31杭州
logo of aliyun
社招5年以上云智能集团

1. 技术方案设计 ● 了解并分析ECS基础设施(如神龙MoC卡 + 宿主机)在系统稳定性与高可用方面的设计目标; ● 根据业务需求,评估技术可行性,参与方案评审,完成技术选型、功能设计、系统架构、数据结构和开发流程的规划。 2. 技术实现 ● 参与虚拟机故障逃生等创新性技术的研发工作,能根据整体方案拆解任务,独立完成模块设计、编码和系统功能开发; ● 负责故障检测、隔离、恢复、数据一致性校验等核心功能的架构设计和代码实现,持续优化系统性能; ● 参与代码评审和阶段性讨论,通过调试和优化,确保代码高质量交付; ● 负责开发和上线后的系统维护,包括值班响应、问题排查、故障诊断、体验优化、性能与成本调优等; ● 编写必要的技术文档,如操作手册、排障指南、API说明等,支持团队运维和问题处理。 3. 系统稳定性与性能优化 ● 运用优化方法和技术手段,提升系统的安全性、稳定性和运行效率,保障ECS基础设施的可靠运行,改善客户使用体验。 4. 技术预研 ● 跟踪系统可靠性(RAS)和高可用技术的发展趋势,结合实际业务需求,提出可行的技术建议和架构改进方案。 5. 技术规划 ● 深入理解业务方向,结合长期发展需求,制定高可用、高可靠、易扩展的技术架构规划,并推动落地实施。

更新于 2025-09-08北京|杭州|上海
logo of quark
社招3年以上技术类-质量保证

1. 负责智能硬件产品的系统级功能与性能测试,覆盖操作系统、中间件、应用层及软硬协同场景; 2. 针对复杂系统架构中的偶发性问题(如死机、重启、卡顿、音视频异常等),设计并实施高效、可复现的测试方案; 3. 开发与维护自动化测试工具与框架,提升偶现问题的复现效率与回归验证速度; 4. 构建性能量化评估体系,开发自动化工具对CPU/GPU负载、内存泄漏、功耗、响应时延等关键指标进行持续监控与分析; 5. 主导测试策略制定,推动测试左移与质量内建,持续优化测试流程与方法论,引领系统测试领域技术演进,提升整体系统性能稳定性与用户体验。

更新于 2026-01-23杭州