阿里云阿里云智能-运维平台研发专家-ABM 平台研发
任职要求
- 计算机相关专业,五年以上研发经验,具备大规模分布式系统的开发或运维背景; - 熟练掌握至少一种主流编程语言(Java/Python/Go),具备扎实的编程基础,熟悉常见的后端开发框架; - 熟练掌握云原生运维及交付相关技能; - 理解并认同 DevOps、SRE 理念,熟练掌握 CI/CD、自动化运维、可观测、异常处置、云原生等相关技术; - …
工作职责
- 参与 ABM 运维平台的产品研发工作,负责运维产品与服务的架构设计、工具框架优化与平台功能开发,提升 SRE 运维效率和平台产品质量; - 参与运维工具、数据平台、可观测平台、CI/CD 变更交付链路、异常处置链路及云原生运维管控链路的开发,支撑 SRE 及产研团队高效开发与运维大规模分布式系统; - 增强 ABM 产品能力,参与运维体系架构改进,提升业务侧稳定性与研发变更效率,看护计算平台基础架构;
1、技术方案设计 - 负责 ABM 运维平台的架构设计,具有前瞻性视野,满足业务快速发展和各种输出环境适配需求。 2、技术实现 - 负责ABM核心模块的开发和优化,满足大规模和高性能的需求。 - 对编码进行阶段性的讨论和CodeReview,并通过调试优化,推动代码成功部署。 - 对开发中和部署后的程序进行必要的维护和迭代,包括值班oncall、升级工单处置、bug排查、问题诊断、体验改善、性能和成本优化等。 3、稳定性和性能优化 - 制定稳定性策略,寻找并解决产品系统中的潜在风险和瓶颈,覆盖线上疑难杂症问题,确保系统的安全可靠。 - 运用产品优化技术和方法,进行性能优化,提高产品稳定性和性能。 4、技术预研 - 跟踪和了解新的产品技术和趋势,根据业务需要提供技术支持和建议。 5、技术规划 - 理解业务战略及重点,基于业务需求作出高可用、高可靠、高拓展性的技术架构规划和落地。
数据中心运营平台团队的使命是实现服务器、IDC等基础设施整个运营领域的全面产品化支撑,从而达到高效率,低成本,低功耗的智能运维。集成了服务器和IDC领域的各项专业技术,以及运维平台进一步的智能化支持,我们立志打造一个真正自动驾驶的数据中心。 作为服务器领域开发专家,您将负责: 1. 负责服务器采集监控机制的定义与优化,包括定义采集的数据,频率以及后续业务应用方式。 2. 负责服务器性能、功耗等数据的分析与应用,提取业务特征,分析业务瓶颈并优化。 3. 基于ARM/X86架构,以及各类AI等异构架构的场景,完善监控与运维手段。 4. 基于故障宕机等场景,从集群角度增强服务器容灾与带故障运行的能力,可用性与稳定性。 5. 基于服务器领域知识与智能化相结合,运用智能化手段管理服务器。 6. 支撑单元化等特殊服务器集群管理场景。
1、技术方案设计,技术方案的落地与实现,并确保产品稳定性并持续提升产品性能实现性能优化, 2、参与从用户侧到后端资源侧,数据链路,控制链路,性能日志采集,审计,检索,分析等一整套分布式系统的研发,提供全球数据库服务; 3、利用云原生,基于K8S,Docker,云上ECS/神龙,云盘,VPC等云原生技术与数据库技术结合,给用户提供优质体验,高性价比,易用,高性能的云数据库服务; 4、通过产品化,智能化方式管控阿里云和阿里巴巴经济体的大规模分布式数据库实例集群,并支撑公共云和集团业务需求,为双十一等大促场景提供稳定,顺滑的体验。 5、参与数据库 DBaaS 平台的产品规划和平台技术演进。
1、产品解决方案设计:深入理解公司业务需求,结合 Redis、RedKV、MySQL、TiDB、RedTao、ROS 等多种存储数据库技术特点,主导设计高可用、高性能、可扩展的存储数据库产品解决方案,推动业务与技术深度融合。 2、平台研发与优化:牵头存储数据库运维提效工作,推动实现存储数据库资源自动化部署、智能监控、故障自愈等功能,提升存储数据库运维效率与服务质量,助力团队从传统运维向平台化运营转型。 3、横向项目落地:作为项目负责人,统筹协调跨部门资源,制定项目计划与技术方案,确保重大横向项目按时高质量完成,推动公司存储数据库技术体系升级与创新。 4、技术研究与创新:跟踪存储数据库领域前沿技术动态,探索新技术在公司业务场景的应用可行性,主导技术预研与 POC 验证,为公司技术发展提供前瞻性建议。 5、团队协作与知识共享:与业务部门、开发团队紧密沟通协作,提供专业的技术支持与咨询服务;组织内部技术培训与分享,提升团队整体技术水平。