logo of aliyun

阿里云阿里云智能-虚拟化开发专家-北京/上海/杭州

社招全职5年以上云智能集团地点:北京 | 杭州 | 上海状态:招聘

任职要求


1. 熟悉软硬件协同设计与开发,有 AI Infrastructure、智能网卡、加速卡、卸载卡、DPDK、SPDK 开发经验者优先;
2. 熟悉 x86 或 ARM体系结构,系统虚拟化中的 CPU 虚拟化(VT-x)、内存虚拟化(EPT、Shared Virtual Memory)、中断虚拟化(Interrupt Remapping、MSI/MSI-X、Posted Interrupt)、I/O 虚拟化(IOMMU/SMMU、VFIO、SR-IOV、Scalable IOV)和 GPU 虚拟化等核心模块的工作原理;
3. 有系统级的 RAS 开发与设计经验,熟悉 CPU、内存、PCIe 等子系统的RAS 软硬件设计者优先;
4. 熟悉 Linux 内核调度器、内存管理、cgroups 隔离、RAS 等模块的工作原理,具备丰富的内核态开发与调试经验;
5. 熟悉容器、安全容器或其他云原生底层技术,有 Docker、gVisor、Kata、Rust VMM、Firecracker 等经验;
6. 精通 C/C++Python 编程,编码能力强,参与过 OpenStack、libvirt 等控制面开发的候选人优先;
7. 熟悉 LinuxWindows 系统虚拟化或硬件性能调优;
8. 善于沟通,乐于总结与分享,具备良好的团队协作能力,对解决复杂技术问题充满热情。

工作职责


1. 技术方案设计
● 了解并分析ECS基础设施(如神龙MoC卡 + 宿主机)在系统稳定性与高可用方面的设计目标;
● 根据业务需求,评估技术可行性,参与方案评审,完成技术选型、功能设计、系统架构、数据结构和开发流程的规划。
2. 技术实现
● 参与虚拟机故障逃生等创新性技术的研发工作,能根据整体方案拆解任务,独立完成模块设计、编码和系统功能开发;
● 负责故障检测、隔离、恢复、数据一致性校验等核心功能的架构设计和代码实现,持续优化系统性能;
● 参与代码评审和阶段性讨论,通过调试和优化,确保代码高质量交付;
● 负责开发和上线后的系统维护,包括值班响应、问题排查、故障诊断、体验优化、性能与成本调优等;
● 编写必要的技术文档,如操作手册、排障指南、API说明等,支持团队运维和问题处理。
3. 系统稳定性与性能优化
● 运用优化方法和技术手段,提升系统的安全性、稳定性和运行效率,保障ECS基础设施的可靠运行,改善客户使用体验。
4. 技术预研
● 跟踪系统可靠性(RAS)和高可用技术的发展趋势,结合实际业务需求,提出可行的技术建议和架构改进方案。
5. 技术规划
● 深入理解业务方向,结合长期发展需求,制定高可用、高可靠、易扩展的技术架构规划,并推动落地实施。
包括英文材料
Linux+
内核+
Docker+
Rust+
C+
C+++
Python+
OpenStack+
Windows+
性能调优+
相关职位

logo of aliyun
社招5年以上云智能集团

1. 设计,开发和调优混合云存储产品的数据平面,包括但不限于Guest OS/Hypervisor/存储网关/阿里云等层面上的存储,备份,数据服务,容灾恢复等核心功能的数据平面能力; 2. 推动技术与业务的发展,在专有云与公有云中设计和开发不同形态的混合云服务; 3. 产品负责人岗位需跟踪协调合作伙伴产品(例如网关)功能和进度制定阿里云相应的功能适配;制定自主研发混合云存储产品的数据平面技术架构选择、开源和自研模块集成策略。

更新于 2025-07-31
logo of aliyun
社招5年以上云智能集团

1. 负责GPU服务器依赖的虚拟化组件的开发迭代,来满足业务对稳定性、安全、性能、运维等方面的要求 2. 负责研究轻量虚拟化/安全容器等云原生场景下系统底层技术在GPU业务场景的应用 3. 负责GPU驱动在业务场景的功能开发、维护并和GPU厂商对接相关技术需求 4. 负责异构虚拟化领域前沿技术的探索,并推动有业务价值的技术落地

更新于 2025-08-18
logo of antgroup
社招7年以上技术类-开发

1、负责安全GPU推理引擎、GPU性能优化相关技术平台,解决安全大模型GPU部署的资源弹性、性能瓶颈问题 2、了解行业最新GPU、NPU等最技术优化方案以及在安全落地 3、带领团队完成Modelops平台相关项目管理,以及平台架构规划设计

更新于 2025-08-04
logo of aliyun
社招5年以上云智能集团

1、作为云原生技术领域专家,为客户提供云产品的专家服务支持,负责疑难升级问题的快速定位、分析解决。 2、与研发团队对接,根据客户反馈的问题推动云产品Bug修复、架构方案优化。推进后台诊断工具、用户侧自主化诊断工具的落地。 3、整理输出官方技术文档与解决方案,指导用户合理使用云产品。 4、为客户提供企业级服务中云产品相关场景的的解决方案,协助客户完成云环境上的业务技术落地。

更新于 2025-10-03