阿里云诚云科技-高级运维工程师-云平台运维与交付
任职要求
• 在中型企业或云服务提供商从事SRE、运维工具开发、客户技术服务相关工作,具备3年及以上工作经验
• 熟悉云集群各运维平台和云产品及监控平台使用方法,能够快速专业定位客户问题
• 具备一定集群调优和trouble shooting能力
• 或者掌握分布式系统原理,对存储、计算、流式计算中的一项或多项有深…工作职责
1、客户现场专项技术负责人,如网络专项、数据库专项; 2、平台稳定性重大变更方案制定与实施,如性能/存储优化、底座改造等; 3、现场故障应急执行,协助原厂尽快恢复平台运行; 4、关键时刻现场保障,如客户平台隐患深度排查与治理; 5、复杂问题原因定位及解决;
1、业务流程理解和模块设计开发:负责理解和识别关键业务流程,能够独立完成模块的设计和开发;承接业务需求,负责项目设计和开发,以及日常迭代开发; 2、技术框架和开发规范:掌握和复用团队内部技术框架,提升研发效率和质量;参与框架优化、研发规范制定,以及稳定性工作; 3、系统维护和改进:对现有系统进行持续维护和改进;遵守规范标准,根据CodeReview和阶段性讨论优化系统实现; 4、系统监控和稳定性保障:实施系统监控,保障系统稳定性,包括性能优化和问题排查;处理线上服务监控告警及问题排查; 5、线上系统运维和应急处理:负责线上系统运维,包括日常维护、问题排查、系统升级等;应急跟进和处理用户工单;
负责运营管理全国服务器自维修,为现场提供深度技术支持,推动服务器维修优化提效: 1. 负责管理服务器维修时效,全流程运营备件供给、水位运营、现场维修等环节,推动复杂问题解决; 2. 负责建设与优化自维修工单平台与备件体系,实现自维修工单流与备件流的自动化与智能化; 3. 负责一线维修工程师的培训考核,完成技术分析,不断演进现场维修技能与工具,确保维修质量; 4. 负责全国站点的维修考核,设立运营指标,牵引各站点完成既定目标,达成项目结果; 5. 负责制定现场维修计划与策略,保证全国的推进落地。
1. 作为阿里云智能在客户侧的服务界面,全流程深入了解大型企业业务场景,与企业的 IT、应用架 构、人员合作,针对客户现有 IT 架构进行梳理与分析,协助并提供 IT 整体架构战略规划的咨询,协同 售前架构师所提供的设计方案的落地、实施和交付工作。 2. 基于阿里云的产品线、技术体系,帮助企业级客户制定 IT 架构和业务流程,包括定制的最佳实践、 异常处理机制和问题应急预案等。帮助客户深度理解云服务,并持续帮助客户提升技术能力。 3. 推动阿里云智能产品不断优化,解决客户使用云计算服务和解决方案过程中的技术问题,不断完善 问题处理机制和流程,与阿里云服务专家、产品专家直接合作,确保企业技术问题高效地解决。
我们正在寻找一位充满激情、经验丰富的高级技术专家,加入我们的创新团队,共同面对并解决在Serverless GPU和AI应用平台领域中的挑战性问题。 1.负责Serverless计算及AI应用托管平台的架构设计与持续优化。包括异步事件处理、GPU资源调度与弹性伸缩,AI 应用和模型托管等核心功能的设计。保障系统的高可用性、可扩展性和安全性。 2.理解业务战略及重点,并进行相应的技术架构规划并推动落地。能够为开发团队提供专业的技术指导和支持。推动分布式系统、AI应用托管等领域的知识共享和技术创新。 3.深入分析系统性能瓶颈,实施有效的优化策略,提高系统响应速度和资源使用效率。 4.加强与产品、开发、运维等部门的合作,确保技术方案的有效实施,克服项目推进中的各种障碍。 5.为关键客户提供技术支持,针对使用Serverless平台过程中出现的难题给予及时有效的解决方案,维护良好的产品体验。