百度资源运维工程师(J81069)
任职要求
-管理学/计算机/电子/通信等相关专业统招本科及以上学历
-具有互联网公司IT项目管理、质量管理经验,具备系统网络运维、较大规模数据中心现场ICT运维管理经验
-熟悉IT服务管理、信息安全管…工作职责
-负责百度数据中心ICT运维服务管理,包括数据中心ICT运维&交付管理、现场运维团队管理; -负责ICT运维项目全过程管理,协调各业务方需求并推动问题解决,确保ICT运维服务安全、稳定、高效; -建立并持续优化运维管理体系及方法论,精细化管理,把控服务质量与效率; -与产品、研发、供应链等团队密切合作,优化流程链路,提升运营效率;
1、主导公司核心IT基础设施资源(服务器、存储、网络、云资源、容器集群等)的统筹运维管理,搭建标准化、规范化运维体系,保障业务系统稳定运行及高可用性(目标SLA 99.9%以上); 2、牵头复杂及重大运维故障的应急响应、根因分析与复盘优化,输出可复用的故障解决方案,持续降低故障发生率及影响范围; 3、统筹IT资源容量规划与弹性扩缩容策略制定,精准预判业务资源需求,优化资源配置方案,提升资源利用率,实现运维成本精细化管控; 4、推进运维自动化与智能化建设,运用Shell/Python等脚本语言及主流运维工具(如Prometheus、Grafana、Ansible),实现部署、巡检、监控、告警等核心运维流程自动化,提升运维效能; 5、优化IT资源监控与告警体系,梳理核心监控指标、优化告警策略,实现异常行为早发现、早预警、早处置,缩短故障响应时间(MTTR)与恢复时间; 6、承担中初级运维工程师的技术指导与能力赋能,沉淀运维最佳实践,支撑业务系统高效上线与迭代升级。
负责服务器、网络设备、数据库等IT资源的日常运维与监控; 处理系统故障,优化性能,确保服务高可用性; 编写自动化脚本(如Python/Shell),提升运维效率; 管理安全策略,防范网络攻击与数据泄露; 支持新项目部署,协作开发团队解决技术问题; 记录运维文档,定期输出技术报告。

1.负责公司核心业务系统的各类线上资源维护、监控告警以及应急响应,保障各项服务7*24小时高效稳定运行 2.负责开发和维护自动化运维工具和平台,覆盖部署、监控、日志分析等全生命周期管理 3.负责容量规划、资源调度和混沌工程建设,确保各系统能够应对各类灾难和高并发流量 4.负责系统安全策略的实施与优化,构建零信任安全架构,确保操作审计高覆盖率 5.负责与开发团队紧密协作,推动DevOps文化和SRE理念,做好流程和规范建设,提升开发与运维的协作效率
