logo of aliyun

阿里云阿里云智能-GPU虚拟化&驱动研发专家-杭州/北京/上海

社招全职5年以上云智能集团地点:北京 | 杭州 | 上海状态:招聘

任职要求


1. 精通C/C++/Rust 编程和多线程性能优化,具备良好的算法、数据结构基础
2. 熟悉X86/ARM体系架构并深入理解系统虚拟化工作原理,包括CPU虚拟化,内存虚拟化、设备虚拟化
3. 具备Linux Kerne、KVM、QEMU、Libvirt 相关的实际项目经验
4. 熟悉主流服务…
登录查看完整任职要求
微信扫码,1秒登录

工作职责


1. 负责GPU服务器依赖的虚拟化组件的开发迭代,来满足业务对稳定性、安全、性能、运维等方面的要求
2. 负责研究轻量虚拟化/安全容器等云原生场景下系统底层技术在GPU业务场景的应用
3. 负责GPU驱动在业务场景的功能开发、维护并和GPU厂商对接相关技术需求
4. 负责异构虚拟化领域前沿技术的探索,并推动有业务价值的技术落地
包括英文材料
C+
C+++
Rust+
多线程+
还有更多 •••
相关职位

logo of baidu
社招2年以上ACG

-负责 GPU 场景下弹性裸金属服务器与弹性云主机的架构设计、核心模块开发及性能优化工作,保障服务的稳定性、可扩展性与算力效率 -研究并落地最新硬件加速技术(如 GPU 虚拟化增强、硬件卸载等),针对性提升 GPU 的计算能力、资源利用率及能效比 -参与 GPU 平台的整体设计与开发,定义 GPU 算力与平台组件(如存储、网络、调度系统)的集成方案,确保端到端算力交付效率 -跟踪 GPU 及云计算领域的技术趋势,输出技术调研报告,为平台技术选型与架构迭代提供决策支撑 -协同产品、测试、运维团队建立高效协作流程,覆盖需求评审、方案设计、开发联调、测试验证、上线运维全流程,推动产品按期高质量上线

更新于 2025-09-15上海
logo of tencent
社招腾讯云技术

1.你是Linux大神,热衷于专研Linux内核技术的奥秘;是数码发烧友,沉迷于更新、更强的计算硬件和评测;亦或是有技术热情的潜力派,希望揭开云计算的神秘面纱。欢迎加入腾讯云虚拟化测试团队,我们致力于腾讯云底层虚拟化平台的质量保障工作,为腾讯云提供强大、稳定的算力服务,支撑云上海量业务; 2.在这里,你可以参与到全新架构的自研服务器以及新架构下的服务器虚拟化技术的研究和探索; 3.在这里,你可以紧跟DPDK、SPDK、智能网卡等业内领先的软、硬件加速技术的快速发展; 4.在这里,你可以对全新的Linux内核调度算法进行评估,如何在云计算场景下发挥出硬件的最佳性能; 5.在这里,你可以第一时间接触到未曾面世的最强GPU和最新的GPU虚拟化技术…; 6.加入我们,与业内最优秀的同事并肩,成为硬核技术大牛,见证虚拟化技术的发展,创造业务的一个个里程碑; 7.负责Linux内核、虚拟化、服务器硬件等领域的测试工作; 8.负责服务器虚拟化硬件平台的测试工作,挖掘虚拟化场景下服务器功能性、兼容性、性能、稳定性等问题; 9.负责研发能力和效率提升,包括但不限于自动化建设,测试工具开发,环境管理,devops流水线建设等。

更新于 2025-06-10西安
logo of shein
社招5年以上信息技术类

职位简介 负责在 大规模 Kubernetes 集群 中设计、优化云网络架构与 GPU 虚拟化调度体系,支持 AI、大数据、电商等业务场景。您将深入 Linux 内核、虚拟化与容器网络技术栈,运用 eBPF 等工具提升系统性能与稳定性,并推动跨云平台的资源优化与整合 核心职责 1.设计与优化 Kubernetes 云网络架构(CNI、VPC),确保高性能、低延迟和稳定性。 2.基于 Cilium/Calico 等网络插件进行二次开发,支持跨集群通信和多租户隔离。 3.研究与落地 GPU 虚拟化技术(vGPU、MIG、GPU Passthrough),实现多租户隔离与动态资源调度。 4.应用 eBPF、perf、sysdig 等工具监控和分析网络与 GPU 虚拟化性能瓶颈。 5.在 混合云/多云环境 中实现跨平台网络与 GPU 兼容性优化。 6.开发定制 Kubernetes 设备插件和 Operator,优化容器网络与 GPU 资源管理。

更新于 2025-12-03南京
logo of aliyun
社招5年以上云智能集团

1. 技术方案设计 ● 了解并分析ECS基础设施(如神龙MoC卡 + 宿主机)在系统稳定性与高可用方面的设计目标; ● 根据业务需求,评估技术可行性,参与方案评审,完成技术选型、功能设计、系统架构、数据结构和开发流程的规划。 2. 技术实现 ● 参与虚拟机故障逃生等创新性技术的研发工作,能根据整体方案拆解任务,独立完成模块设计、编码和系统功能开发; ● 负责故障检测、隔离、恢复、数据一致性校验等核心功能的架构设计和代码实现,持续优化系统性能; ● 参与代码评审和阶段性讨论,通过调试和优化,确保代码高质量交付; ● 负责开发和上线后的系统维护,包括值班响应、问题排查、故障诊断、体验优化、性能与成本调优等; ● 编写必要的技术文档,如操作手册、排障指南、API说明等,支持团队运维和问题处理。 3. 系统稳定性与性能优化 ● 运用优化方法和技术手段,提升系统的安全性、稳定性和运行效率,保障ECS基础设施的可靠运行,改善客户使用体验。 4. 技术预研 ● 跟踪系统可靠性(RAS)和高可用技术的发展趋势,结合实际业务需求,提出可行的技术建议和架构改进方案。 5. 技术规划 ● 深入理解业务方向,结合长期发展需求,制定高可用、高可靠、易扩展的技术架构规划,并推动落地实施。

更新于 2025-09-08北京|杭州|上海