logo of mi

小米Linux系统运维专家

社招全职3年以上A154523A地点:上海状态:招聘

任职要求


1. 熟悉CentOSUbuntu操作系统,对系统性能优化、系统安全配置等方面有深入研究和实践;
2. 有三年以上500+台服务器的管理运维经验,熟悉Ansible等批量自动化运维工具软件;
3. 熟练使用ShellPython脚本语言;
4. 工作有激情、协作善沟通、做事有条理;
5. 有RHCE、RHCA证书者优先。

工作职责


1. 负责Linux类操作系统的评估、安装、配置、服务等,包括CentOS、Ubuntu等;
2. 负责操作系统层面的性能优化、安全配置、软件安装、补丁更新、变更操作等;
3. 负责配套自动化运维管理软件、运维脚本的管理、开发、使用等;
4. 负责HPC集群调度和配套监控软件的运维、使用、服务等;
5. 负责EDA软件的安装、交付和基础排障,IP数据运维和服务。
包括英文材料
CentOS+
Ubuntu+
Ansible+
Bash+
Python+
脚本+
相关职位

logo of aliyun
社招5年以上云智能集团

1、运维可观测链路建设 • 对稳定性有全局化的思考能够制定稳定性方案并落地; • 事前:建立并持续优化应用运维的监控机制,研发并维护相应的运维监控平台/工具; • 事中:建立并持续优化应用运维的预警机制,确保故障能够被快速发现、快速定位、快速处置; • 事后:快速分析、诊断、定位问题,并能够协同相关人员解决问题;建立健全快速恢复服务机制,降低业务受损程度,确保业务稳定运行;通过稳定性治理专项、架构优化等排除潜在风险。 2、稳定性运维平台建设 • 设计、研发并维护可靠的运维平台、工具,如巡检系统、水位系统、交付系统、成本管理系统等,帮助解决生产系统遇到的交付、性能、稳定性、成本等问题,保障业务持续可用,提升性能与效率; • 负责运维质量数据化分析工作,通过对日常运维指标、问题、风险进行分析和研究,建立模型,给出运维优化建议; 3、应用运维规范标准建设 • 建设应用运维流程规范以及标准化(如变更标准、重保方案、云产品配置标准等),确保运维的规范性和标准化,提升运维稳定性; • 制定应用运维的故障应急处置规范标准; • 制定应用运维的报警处置规范标准以及SLA; • 制定应用运维的成本把控规范以及考核标准。 4、资源调优 • 基于业务需求规划,进行预算编制、容量规划与准备,协调研发进行存储、计算等资源消耗的预测与估算; • 分析业务需求,在确保稳定性的前提下,结合水位和规格以及计费规则等,并把控技术方案中资源估算合理性,协同研发降低资源成本。 5、安全保障建设 • 7*24应急响应,日常监控报警和应急处置并对存在的问题持续发现并整改; • 负责重大节点(如国庆、春节、元旦)的运维保障工作; • 应急预案的制定及演练、应急响应和故障处理等事项; • 建立问题/故障记录库,对记录库进行针对性分析,补齐并优化应急预案库和规范流程库; • 配合安全团队,梳理安全漏洞,优化相关技术架构,提升系统的安全性。 6、架构升级 • 负责系统架构升级,如内核升级、网络架构升级、服务跨机房迁移、容器化改造等; • 持续挖掘云产品的功能以及使用能力结合业务需求场景进行优化; • 负责容灾架构设计并实施,如同城容灾、异地多活等。

更新于 2025-09-03
logo of aliyun
社招5年以上云智能集团

1、负责阿里云专有云IAAS/大模型/PAAS/大数据/中间件等产品的运维专家支持、整体解决方案服务及优化建议,使客户的IT架构、性能等层面得到更好的优化与提升,制定相关的技术方案并予以支持落地。 2、负责对事件、故障的跟踪、剖析、总结与知识库沉淀,出具技术方案并推动相关产品团队解决落地,同时赋能一线运维团队自运维能力; 3、负责产品巡检工具与问题诊断分析工具开发,提升客户云平台的预警与异常自发现能力,提升用户的满意度。 4、直面AI智能运维、云原生Serverless架构、全业务容灾、系统自治等巅峰挑战,提供技术底盘及业务能力支持。 5、完成核心技术攻关,识别和解决潜在的技术风险

更新于 2025-08-27
logo of bytedance
社招5年以上A111315

1、设计实现面向百万规模数据中心规模具备竞争力的稳定性风险拦截与故障诊断自愈系统; 2、与SRE和业务团队紧密合作,能够针对用户的现网痛点提出合理的系统解决方案,提升整体稳定性; 3、与产品和研发团队一起设计实现具有技术领先优势的智能运维系统,系统架构具备高可用,高可靠性和安全性; 4、跟踪技术趋势和行业最佳实践,主导一个或者多个运维系统中长期的技术规划的落地; 5、具备全面的技术能力,能参与负责故障应急响应,协助团队一起解决生产环境中的复杂故障。

更新于 2023-11-24
logo of bytedance
社招5年以上A227001

1、设计实现面向百万规模数据中心规模具备竞争力的稳定性风险拦截与故障诊断自愈系统; 2、与SRE和业务团队紧密合作,能够针对用户的现网痛点提出合理的系统解决方案,提升整体稳定性; 3、与产品和研发团队一起设计实现具有技术领先优势的智能运维系统,系统架构具备高可用,高可靠性和安全性; 4、跟踪技术趋势和行业最佳实践,主导一个或者多个运维系统中长期的技术规划的落地; 5、具备全面的技术能力,能参与负责故障应急响应,协助团队一起解决生产环境中的复杂故障。

更新于 2023-11-24