阿里云阿里云智能-GPU虚拟化&驱动研发专家-杭州/北京/上海
任职要求
1. 精通C/C++/Rust 编程和多线程性能优化,具备良好的算法、数据结构基础 2. 熟悉X86/ARM体系架构并深入理解系统虚拟化工作原理,包括CPU虚拟化,内存虚拟化、设备虚拟化 3. 具备Linux Kerne、KVM、QEMU、Libvirt 相关的实际项目经验 4. 熟悉主流服务器设备互联总线协议,如:PCIE、CXL、NVLINK等 5. 熟悉计算机高速网络及RDMA编程 6.了解GPU软件栈,如GPU驱动/CUDA/NCCL/Rocm, 有实际项目经验者优先 7. 对Kata Containers、Cloud-Hypervisor、Rust-VMM等有深入研究者优先
工作职责
1. 负责GPU服务器依赖的虚拟化组件的开发迭代,来满足业务对稳定性、安全、性能、运维等方面的要求 2. 负责研究轻量虚拟化/安全容器等云原生场景下系统底层技术在GPU业务场景的应用 3. 负责GPU驱动在业务场景的功能开发、维护并和GPU厂商对接相关技术需求 4. 负责异构虚拟化领域前沿技术的探索,并推动有业务价值的技术落地
-负责 GPU 场景下弹性裸金属服务器与弹性云主机的架构设计、核心模块开发及性能优化工作,保障服务的稳定性、可扩展性与算力效率 -研究并落地最新硬件加速技术(如 GPU 虚拟化增强、硬件卸载等),针对性提升 GPU 的计算能力、资源利用率及能效比 -参与 GPU 平台的整体设计与开发,定义 GPU 算力与平台组件(如存储、网络、调度系统)的集成方案,确保端到端算力交付效率 -跟踪 GPU 及云计算领域的技术趋势,输出技术调研报告,为平台技术选型与架构迭代提供决策支撑 -协同产品、测试、运维团队建立高效协作流程,覆盖需求评审、方案设计、开发联调、测试验证、上线运维全流程,推动产品按期高质量上线
1.你是Linux大神,热衷于专研Linux内核技术的奥秘;是数码发烧友,沉迷于更新、更强的计算硬件和评测;亦或是有技术热情的潜力派,希望揭开云计算的神秘面纱。欢迎加入腾讯云虚拟化测试团队,我们致力于腾讯云底层虚拟化平台的质量保障工作,为腾讯云提供强大、稳定的算力服务,支撑云上海量业务; 2.在这里,你可以参与到全新架构的自研服务器以及新架构下的服务器虚拟化技术的研究和探索; 3.在这里,你可以紧跟DPDK、SPDK、智能网卡等业内领先的软、硬件加速技术的快速发展; 4.在这里,你可以对全新的Linux内核调度算法进行评估,如何在云计算场景下发挥出硬件的最佳性能; 5.在这里,你可以第一时间接触到未曾面世的最强GPU和最新的GPU虚拟化技术…; 6.加入我们,与业内最优秀的同事并肩,成为硬核技术大牛,见证虚拟化技术的发展,创造业务的一个个里程碑; 7.负责Linux内核、虚拟化、服务器硬件等领域的测试工作; 8.负责服务器虚拟化硬件平台的测试工作,挖掘虚拟化场景下服务器功能性、兼容性、性能、稳定性等问题; 9.负责研发能力和效率提升,包括但不限于自动化建设,测试工具开发,环境管理,devops流水线建设等。
1. 技术方案设计 ● 了解并分析ECS基础设施(如神龙MoC卡 + 宿主机)在系统稳定性与高可用方面的设计目标; ● 根据业务需求,评估技术可行性,参与方案评审,完成技术选型、功能设计、系统架构、数据结构和开发流程的规划。 2. 技术实现 ● 参与虚拟机故障逃生等创新性技术的研发工作,能根据整体方案拆解任务,独立完成模块设计、编码和系统功能开发; ● 负责故障检测、隔离、恢复、数据一致性校验等核心功能的架构设计和代码实现,持续优化系统性能; ● 参与代码评审和阶段性讨论,通过调试和优化,确保代码高质量交付; ● 负责开发和上线后的系统维护,包括值班响应、问题排查、故障诊断、体验优化、性能与成本调优等; ● 编写必要的技术文档,如操作手册、排障指南、API说明等,支持团队运维和问题处理。 3. 系统稳定性与性能优化 ● 运用优化方法和技术手段,提升系统的安全性、稳定性和运行效率,保障ECS基础设施的可靠运行,改善客户使用体验。 4. 技术预研 ● 跟踪系统可靠性(RAS)和高可用技术的发展趋势,结合实际业务需求,提出可行的技术建议和架构改进方案。 5. 技术规划 ● 深入理解业务方向,结合长期发展需求,制定高可用、高可靠、易扩展的技术架构规划,并推动落地实施。
大模型具备很强的泛化及理解世界能力,在小红书内的众多生产场景遍地开花,大模型的训练和部署已成为许多算法工程师的日常。在多团队、多业务频繁使用的大规模GPU集群上,如何能够通过高效的GPU调度策略,使大家不仅能丝滑地完成训练及部署任务,同时也能充分激发大规模GPU集群的效能,是行业公认的关键挑战。在这里,你可以聚焦LLM场景,接触到超大规模GPU集群,并使用真实负载数据进行深入分析及技术探索。欢迎加入我们,一起探索领先技术改变世界! 工作职责: 1、负责万卡规模GPU集群效能分析及优化,通过调度策略优化、在离线混部、集群调度、GPU虚拟化、故障快速恢复、存储&网络加速等手段,提升大规模GPU集群的整体使用效率。 2、负责构建面向大模型训练、微调、推理、部署全流程LLMOps,与下游云原生平台深度融合,支撑大模型在公司内各业务生产链路稳定高效地落地。 3、持续关注业界最新的GPU资源调度相关技术动态,探索建设业界领先的资源调度策略及方法,构建下一代大规模AI资源调度系统。