小红书系统运维专家- IT
任职要求
1. 5年以上系统运维相关经历,有管理系统运维团队及NOC团队的经验; 2. 有丰富的基础设施管理经验,熟悉SRE相关基础理论与业务实践,熟悉Devops相关技术并具备相应经验,熟悉CI/CD相关知识; 3. 有丰富的公有云相关环境运维经验;同时具备私有云/本地计算环境管理经验优先; 4. 具备Vmware、kv…
工作职责
岗位描述 规划、组织和管理IT相关系统的运维工作,参与IT体系中运维相关部分建设。满足操作工具化、管理自动化、服务平台化的长期建设需求。在包括运维自动化技术,监控技术,网络技术等方向,针对内部应用与基础设施服务,提供承上启下的专业支持服务。并通过与统一的后台服务管理团队的配合与衔接,来确保组织基础设施体系的日常稳定。 业务职责: 1. 组织,定义及实施IT相关业务的系统运维日常工作,设计并推进相关业务的技术迭代与业务演进。为公司内部应用提供体系化的统一应用运维和支持服务; 2. 建设业务系统运维相关能力,为IT业务相关的后台系统提供持续的高可用性服务与自动化业务管理工具; 3. 建设日常服务相关的快速响应能力,对相关业务团队提供快速响应业务需求的工具,服务及相关制度建设; 4. 在系统故障管理场景中,能作为 NOC 中的关键节点承担系统故障管理职责;
1、负责阿里云专有云IAAS/大模型/PAAS/大数据/中间件等产品的运维专家支持、整体解决方案服务及优化建议,使客户的IT架构、性能等层面得到更好的优化与提升,制定相关的技术方案并予以支持落地。 2、负责对事件、故障的跟踪、剖析、总结与知识库沉淀,出具技术方案并推动相关产品团队解决落地,同时赋能一线运维团队自运维能力; 3、负责产品巡检工具与问题诊断分析工具开发,提升客户云平台的预警与异常自发现能力,提升用户的满意度。 4、直面AI智能运维、云原生Serverless架构、全业务容灾、系统自治等巅峰挑战,提供技术底盘及业务能力支持。 5、完成核心技术攻关,识别和解决潜在的技术风险
-作为百度私有云在客户侧的售后一号位,全流程深入了解大型企业业务场景,与客户的系统运维,应用架构等人员合作,提供私有云产品的售后运维,包括但不限于组织现场进行云平台变更,对接客户需求 -基于百度私有云&AI的产品线、技术体系,帮助企业级客户制定IT架构和业务流程,包括定制的最佳实践、异常处理机制和问题应急预案等。帮助客户深度理解云服务,并持续帮助客户提升技术能力 -保障百度云平台的稳定运行,负责客户云平台的故障应急响应,后端协调,应急止损,协调产研出具故障报告,负责客户侧汇报和复盘 -推动百度云智能产品不断优化,解决客户使用云计算服务和解决方案过程中的技术问题,不断完善问题处理机制和流程,与云服务专家、产品专家直接合作,确保企业技术问题高效地解决 -现场一线驻场人员的日常运维工作管理,以及绩效考核,现场运维流程制定等运维管理工作
1、技术方案设计 - 负责 ABM 运维平台的架构设计,具有前瞻性视野,满足业务快速发展和各种输出环境适配需求。 2、技术实现 - 负责ABM核心模块的开发和优化,满足大规模和高性能的需求。 - 对编码进行阶段性的讨论和CodeReview,并通过调试优化,推动代码成功部署。 - 对开发中和部署后的程序进行必要的维护和迭代,包括值班oncall、升级工单处置、bug排查、问题诊断、体验改善、性能和成本优化等。 3、稳定性和性能优化 - 制定稳定性策略,寻找并解决产品系统中的潜在风险和瓶颈,覆盖线上疑难杂症问题,确保系统的安全可靠。 - 运用产品优化技术和方法,进行性能优化,提高产品稳定性和性能。 4、技术预研 - 跟踪和了解新的产品技术和趋势,根据业务需要提供技术支持和建议。 5、技术规划 - 理解业务战略及重点,基于业务需求作出高可用、高可靠、高拓展性的技术架构规划和落地。
1、技术方案设计 • 收集、识别、分析DCN, AI infra 需求,并确定技术方案的目标、范围和交付成果 • 基于需求分析,进行技术可行性分析和方案评审,选择合适的技术选型、功能设计、技术架构、数据架构和开发流程等 2、技术实现 • 基于技术方案的拆解,按照任务目标和产出规范,完成任务/子任务的设计、编码开发和系统功能实现 • 负责核心功能的架构与代码模板的编写,开发与维护系统公用核心模块,技术架构重构、优化等 • 对编码进行阶段性的讨论和CodeReview,并通过调试优化,推动代码成功部署 • 对开发中和部署后的程序进行必要的维护和迭代,包括值班oncall、升级工单处置、bug排查、问题诊断、产品体验改善、性能和成本优化等 3、稳定性和性能优化 • 制定稳定性策略,寻找并解决产品系统中的潜在风险和瓶颈,覆盖线上疑难杂症问题,确保系统的安全可靠 • 运用产品优化技术和方法,进行性能优化,提高产品稳定性和性能 4、技术预研 • 跟踪和了解新的DCN, AI infra 的发展趋势,参与UEC, SONiC等开源社区的工作, 并根据业务需要提供新的技术支持和建议, 让阿里的发展方向和业界的发展方向吻合。 5、技术规划 • 理解AI infra的战略及重点,基于业务需求作出高可用、高可靠、高拓展性的技术架构规划和落地。