logo of aliyun

阿里云阿里云智能-服务器运维专家-AI领域-深圳/杭州

社招全职5年以上云智能集团地点:深圳 | 杭州状态:招聘

任职要求


1、通讯、计算机、电子工程相关专业,有扎实的计算机底层硬件基础知识;
2、从事5年以上的服务器/存储/核心路由器硬件开发和维护工作,熟悉x86架构或者ARM架构、精通数字电路、模拟电路设计,具备全流程硬件产品开发、制造、服务相关经验者优先;
3、熟练掌握Linux/UNIXShell、Python、SQL等编程语言,扎实的服务器硬件(如CPU、内存、存储、RAID)的故障排查与实操维护,有互联网企业…
登录查看完整任职要求
微信扫码,1秒登录

工作职责


1、负责产品的硬件设计交付,实现产品化,对产品端到端交付质量运维负责,辅助并督导上游ODM/OEM开展设计和质量运维保障工作;
2、对标业界标杆,引入先进质量运维管理方法,并制定相关产品的全流程质量运维管控方案并主导实施,开展供应商质量审核、质量体系评估、运维能力管理,确保改善措施的有效实施;
3、主导分析解决和预防重大产品质量运维问题,主导产品质量问题分析、定位及质量问题的处理与预防;
4、负责大规模服务器从交付到退役的全生命周期运维工作,包括新机型导入(NPI)、操作系统安装、维修、硬件监控、硬件重构、服务器管理等运维自动化系统架构、设计、研发,确保交付质量与效率满足SLA要求;
5、参与制定服务器可靠性标准及平台建设,负责风险应急处置,保障系统稳定性,提升业务的安全性与可持续性;
6、持续跟踪硬件相关领域的技术发展趋势,结合对阿里业务应用场景的深入分析,并推动相关技术的产品化实现。
包括英文材料
Linux+
Unix+
Bash+
还有更多 •••
相关职位

logo of aliyun
社招5年以上云智能集团

1、负责服务器BIOS 自主研发及产品交付和维护,能主导需求分析、版本管理、功能开发与测试,线上运维全生命周期研发,保障产品高质量交付。 2、负责海量服务器硬件组件的BIOS 统一化定制, 与厂商协同研发并指导其开展工作,推动 BIOS 研发标准化,测试自动化。 3、负责服务器BIOS/CPU领域RAS、故障定位系统、系统性能调优、安全、功耗等竞争力特性的策略制定、方案落地。 4、结合阿里业务应用场景,开拓BIOS技术发展方向,引领行业标准建设,并推动相关技术产品化落地。

更新于 2025-11-13深圳|杭州
logo of aliyun
社招5年以上云智能集团

1.阿里电源PSU技术规范制定和维护,确保阿里服务器PSU制造商遵循阿里标准;定期分析总结阿里电源应用表现,针对问题提出优化方向并验证,纳入规范,实现产品技术&质量大闭环; 2.负责阿里服务器PSU的引入,保障EDM/ODM整机制造商及自主研发项目中PSU组件的引入质量和进度; 3.负责PSU组件线上质量看护,针对批量问题快速定位分析,给出整改意见; 4.负责EDM/ODM整机制造商生产发现PSU问题管理和根因分析,确保交付质量; 5.协调解决PSU组件与其他相关领域,如IDC数据中心、BMC兼容性、服务器品质保证、运维支持、自维保备件各种问题。

更新于 2025-11-14深圳|杭州
logo of aliyun
社招5年以上云智能集团

1. 围绕 高性能、低延迟 的分布式存储系统,负责新机型及新型硬件技术选型与系统架构的设计适配,评估其对性能、可靠性、成本和运维的影响,输出硬件引入可行性方案。 2. 负责深度参与软硬件协同调优,结合自研分布式存储软件栈与底层硬件特性,在 CPU 性能热点调优、异构计算加速、端网一体 等层面进行联合优化,取得吞吐最大化、延迟SLA有保障的系统优化结果。 3. 负责构建并实施覆盖兼容性、稳定性与性能的多维度验证体系,针对不同CPU、存储介质、网络架构,开展大规模自动化测试与长期压力验证,确保硬件满足生产环境SLA要求。 4. 负责推动新硬件在生产环境的标准化导入与灰度上线验证,制定硬件准入规范、监控指标与故障应急机制,协同运维、SRE与供应链团队完成从灰度到规模化部署的过程。 5. 负责持续跟踪存储与服务器硬件前沿技术,开展预研验证与原型测试,为下一代存储架构演进提供技术储备与决策依据。

更新于 2025-11-20北京|杭州
logo of aliyun
社招5年以上云智能集团

1. 围绕 高性能、低延迟 的分布式存储系统,负责新机型及新型硬件技术选型与系统架构的设计适配,评估其对性能、可靠性、成本和运维的影响,输出硬件引入可行性方案。 2. 负责深度参与软硬件协同调优,结合自研分布式存储软件栈与底层硬件特性,在 CPU 性能热点调优、异构计算加速、端网一体 等层面进行联合优化,取得吞吐最大化、延迟SLA有保障的系统优化结果。 3. 负责构建并实施覆盖兼容性、稳定性与性能的多维度验证体系,针对不同CPU、存储介质、网络架构,开展大规模自动化测试与长期压力验证,确保硬件满足生产环境SLA要求。 4. 负责推动新硬件在生产环境的标准化导入与灰度上线验证,制定硬件准入规范、监控指标与故障应急机制,协同运维、SRE与供应链团队完成从灰度到规模化部署的过程。 5. 负责持续跟踪存储与服务器硬件前沿技术,开展预研验证与原型测试,为下一代存储架构演进提供技术储备与决策依据。

更新于 2025-11-20北京|杭州