阿里云阿里云智能-数据库智能运维系统研发专家(AIOps)-杭州/北京
任职要求
1. 拥有计算机、人工智能或相关方向的硕士学位。 2. 有2年以上数据库、大模型应用、诊断工具等相关产品/技术的开发经验。 3. 对至少 1 个数据库及其运维有广泛的了解,包括但不限于MySQL、PostgreSQL等;对主流的大模型、Agent开发框架有广泛的了解。 5. 能主导核心业务模块或系统架构的设计和研发,确保功能的交付质量和鲁棒性。 6. 善于跨团队合作,能与上下游团队紧密合作,完成所负责业务的演进规划与目标达成。
工作职责
技术方案设计 • 收集、识别、分析客户在数据库运维、诊断方面的需求,并确定技术方案的目标、范围和交付成果。 • 基于需求分析,进行技术可行性分析和方案评审,选择合适的技术选型、功能设计、技术架构、数据架构和开发流程等。 技术实现 • 基于技术方案的拆解,按照任务目标和产出规范,完成任务/子任务的设计、编码开发和系统功能实现。 • 负责核心功能的架构与代码模板的编写,开发与维护系统公用核心模块,技术架构重构、优化等。 • 对编码进行阶段性的讨论和CodeReview,并通过调试优化,推动代码成功部署。 • 对开发中和部署后的程序进行必要的维护和迭代,包括值班oncall、升级工单处置、bug排查、问题诊断、产品体验改善、性能和成本优化等 稳定性和性能优化。 • 制定稳定性策略,寻找并解决产品系统中的潜在风险和瓶颈,覆盖线上疑难杂症问题,确保系统的安全可靠。 • 运用产品优化技术和方法,进行性能优化,提高产品稳定性和性能。
1、技术方案设计,技术方案的落地与实现,并确保产品稳定性并持续提升产品性能实现性能优化, 2、参与从用户侧到后端资源侧,数据链路,控制链路,性能日志采集,审计,检索,分析等一整套分布式系统的研发,提供全球数据库服务; 3、利用云原生,基于K8S,Docker,云上ECS/神龙,云盘,VPC等云原生技术与数据库技术结合,给用户提供优质体验,高性价比,易用,高性能的云数据库服务; 4、通过产品化,智能化方式管控阿里云和阿里巴巴经济体的大规模分布式数据库实例集群,并支撑公共云和集团业务需求,为双十一等大促场景提供稳定,顺滑的体验。 5、参与数据库 DBaaS 平台的产品规划和平台技术演进。
1.构建盘古分布式文件系统的标准化输出能力,提高系统的自动化部署、运维能力; 2.梳理盘古分布式文件系统管控系统的依赖,降低对外部系统的依赖,建立运维管控系统回归测试能力; 3.重构盘古管控系统的数据层和逻辑层,确保系统在迭代更新的过程中始终保证兼容性和服务稳定; 4.对接阿里云安全体系和基础管控系统,确保系统能在多用户环境下安全稳定运行。
1、技术方案设计 • 参与云产品管控系统的架构升级和优化工作,根据管控系统的稳定性、性能、安全等目标设计相应的技术方案,并明确方案目标、范围和交付成果; • 基于需求进行技术可行性分析和方案评审,结合当前的技术架构进行合适的技术选型和功能设计。完成技术架构和数据架构设计,并推进开发流程。 2、技术实现 • 基于技术方案的拆解,按照任务目标和产出规范,完成任务/子任务的设计、编码开发和系统功能实现; • 负责核心功能的架构与代码模板的编写,开发与维护管控系统核心业务模块,优化程序性能等; • 对编码进行阶段性的讨论和CodeReview,并通过调试优化,推动代码成功部署; • 对开发中和部署后的程序进行必要的维护和迭代,包括值班oncall、bug排查、问题诊断、产品体验改善、性能和成本优化等; • 编写技术文档,如操作手册、故障排除指南、API文档等,以支持日常答疑运维工作。 3、安全、稳定、效率和性能优化 • 通过数据分析,稳定性研究和性能测试,持续推动升级和优化云产品管控架构,实现高可用、高性能的管控系统; • 运用产品优化技术和方法,实现安全保障和优化系统性能,提高阿里云产品管控安全性,同时帮助客户提效,给客户更好的体验。 4、技术预研 • 跟踪和了解国内外云计算技术和分布式计算技术的发展和趋势,结合业务实际需要提供有效的技术支持和架构建议。 5、技术规划 • 理解业务重点,基于业务需求作出高可用、高可靠、高拓展性的技术架构规划和落地。
1、技术方案设计 • 参与云产品管控系统的架构升级和优化工作,根据管控系统的稳定性、性能、安全等目标设计相应的技术方案,并明确方案目标、范围和交付成果; • 基于需求进行技术可行性分析和方案评审,结合当前的技术架构进行合适的技术选型和功能设计。完成技术架构和数据架构设计,并推进开发流程。 2、技术实现 • 基于技术方案的拆解,按照任务目标和产出规范,完成任务/子任务的设计、编码开发和系统功能实现; • 对编码进行阶段性的讨论和CodeReview,完成功能测试和性能测试,推动代码成功部署; • 对开发中和部署后的程序进行必要的维护和迭代,包括值班oncall、bug排查、问题诊断、产品体验改善、性能和成本优化等; • 编写技术文档,如操作手册、故障排除指南、API文档等,以支持日常答疑运维工作。 3、安全、稳定、效率和性能优化 • 通过数据分析,稳定性研究和性能测试,持续推动升级和优化云产品管控架构,实现高可用、高性能的管控系统; • 运用产品优化技术和方法,实现安全保障和优化系统性能,提高阿里云产品管控安全性,同时帮助客户提效,给客户更好的体验。 4、技术预研 • 跟踪和了解国内外云计算技术和分布式计算技术的发展和趋势,结合业务实际需要提供有效的技术支持和架构建议。 5、技术规划 • 理解业务重点,基于业务需求做出高可用、高可靠、高拓展性的技术架构规划和落地。