阿里云阿里云智能-虚拟化系统运维专家-杭州/上海
任职要求
1.计算机或相关专业,5年以上虚拟化平台运维或开发经验,熟悉Linux内核机制。 2.精通KVM/QEMU架构,熟悉Libvirt、VFIO、vhost、SR-IOV等关键技术,具备实际调优经验。 3.熟练掌握Shell/Python等脚本语言,具备自…
工作职责
1.负责虚拟化Hypervisor运维平台的架构设计、技术选型与核心功能开发。 2.主导虚拟化资源池的部署、优化与持续运维,保障高可用、高性能及可扩展性。 3.参与云平台与虚拟化层的深度集成,推动自动化部署、热迁移、热升级、变更等核心功能落地。 4.负责虚拟化相关问题的根因分析与性能调优,解决大规模实例运行中的稳定性与性能瓶颈。 5.设计并实施虚拟化相关质量保障体系,包括自动化测试框架、回归测试流程和故障注入演练。 6.协同管控、网络、存储、安全等团队完成虚拟化Hypervisor层的安全加固、合规改造与运维/质量标准化建设。
1. 参与机密容器系统技术方案设计和研发,支撑机密容器在阿里云业务场景生产落地。 2. 负责CPU机密计算硬件特性(如Intel TDX)的开发使能,基于runD架构实现机密容器。 3. 负责机密容器虚拟化等相关的系统技术研发和运维,并跟进业界机密容器系统技术的演进和发展,优化和迭代技术。
1. 在Intel/AMD/ARM等新硬件平台进行Hypervisor关键特性的研发,使能硬件加速能力,降低虚拟化性能开销。 2. 通过技术创新和软硬结合,构建Hypervisor在计算路径/IO路径上的数据校验能力,保障Hypervisor数据安全。 3. 提升虚拟机的运维能力,持续对热迁移/热升级/热插拔/快照技术进行打磨优化,保障线上系统稳定性。
1. 负责新一代AI驱动的PC产品质量保证工作与团队建设,主导质量团队的组织架构设计、人才梯队培养及绩效管理,打造一支具备系统底层、应用上层及 AI 评测能力的复合型质量团队,对最终产品交付质量与用户体验负责; 2. 构建覆盖“安卓系统-上层应用-AI Agent"的全链路质量保证体系。主导跨域质量架构设计,解决终端稳定性兼容性、云边端协同、分布式系统一致性、AI非确定性输出等复杂质量挑战,制定统一的质量门禁与发布准出标准,确保端到端交付质量; 3. 引领测试技术的智能化转型,探索"AI for Testing"与"Testing for AI"双轮驱动模式。一方面将 AI 能力融入自动化测试、用例生成、缺陷分析等环节提升效能;另一方面建立针对 AI Agent/LLM 产品的专项评估体系(如准确性、安全性、幻觉检测),解决非确定性输出的质量挑战,保持行业技术领先性; 4. 主导测试能力平台化与服务化建设,构建系统级、应用级、服务端及 AI 评估的自动化用例库。推动质量能力与 CI/CD 流水线深度集成,实现代码变更的自动化质量卡点。打造自助式质量验证平台,赋能研发、运维及合作伙伴,降低质量验证门槛,提升整体交付效率; 5. 建立多维度的质量度量体系,结合线上监控、灰度发布数据及用户反馈,驱动质量问题的根因分析与持续改进闭环,对线上重大质量事故负责,建立快速响应与防御机制,保障业务连续性。

1. 负责新一代AI驱动的PC产品质量保证工作与团队建设,主导质量团队的组织架构设计、人才梯队培养及绩效管理,打造一支具备系统底层、应用上层及 AI 评测能力的复合型质量团队,对最终产品交付质量与用户体验负责; 2. 构建覆盖“安卓系统-上层应用-AI Agent"的全链路质量保证体系。主导跨域质量架构设计,解决终端稳定性兼容性、云边端协同、分布式系统一致性、AI非确定性输出等复杂质量挑战,制定统一的质量门禁与发布准出标准,确保端到端交付质量; 3. 引领测试技术的智能化转型,探索"AI for Testing"与"Testing for AI"双轮驱动模式。一方面将 AI 能力融入自动化测试、用例生成、缺陷分析等环节提升效能;另一方面建立针对 AI Agent/LLM 产品的专项评估体系(如准确性、安全性、幻觉检测),解决非确定性输出的质量挑战,保持行业技术领先性; 4. 主导测试能力平台化与服务化建设,构建系统级、应用级、服务端及 AI 评估的自动化用例库。推动质量能力与 CI/CD 流水线深度集成,实现代码变更的自动化质量卡点。打造自助式质量验证平台,赋能研发、运维及合作伙伴,降低质量验证门槛,提升整体交付效率; 5. 建立多维度的质量度量体系,结合线上监控、灰度发布数据及用户反馈,驱动质量问题的根因分析与持续改进闭环,对线上重大质量事故负责,建立快速响应与防御机制,保障业务连续性。