蚂蚁金服蚂蚁集团-高级DBA/存储运维工程师-成都
任职要求
a. 三年以上大规模分布式存储(HBase、MySQL、OceanBase)等运维经验,熟悉底层架构原理。 b. 精通Linux系统,熟练运用各种监控工具如Grafana、Prometheus等监控工具,具备全链路的问题定位能力。 c. 对运维体系化建设有方法论,能够独立主导复杂问题攻关。 d. 具备强抗压能力,对生产环境故障有敬畏心,追求极致稳定性。 e. 良好的技术文档习惯,擅长跨团队协作。 f. 计算机相关专业本科机以上学历。 4. 加分项 a. 有PB级HBase、MySQL等集群运维经验,对相关存储引擎源码有了解。 b. 参与过开源社区相关项目贡献 c. 熟悉云原生存储技术栈 d. 对技术有热情,持续关注探索AI等前沿技术
工作职责
1. 系统运维与稳定性体系建设 a. 负责HBase/Lindorm、OceanBase等分布式数据库/存储系统的部署、监控、高可用设计以及故障应急,保障99.999%+稳定性SLA b. 主导存储集群性能调优、容灾方案设计(如多机房容灾、数据备份恢复、全球多活、全球合规存储等),提升系统的健壮性。 c. 深入分析慢查询、热点等疑难场景,输出系统性优化解决方案,并实现平台化落地。 d. 针对业务场景设计存储选型方案,平衡性能、成本与可维护性。 e. 制定存储产品,组件运维、变更SOP,以及容灾演练机制与应急预案。 f. 推动开发团队落地存储使用最佳实践、以及平台能力的持续演进,降低人为故障风险。 2. 智能化运维体系建设 a. 开发运维工具链(如监控告警、自动扩缩容、巡检等),推动运维效率的持续提升。 b. 持续积累沉淀专家经验与知识库,基于RAG等技术完善智能答疑的能力,并协助完成运维智能体的持续构建与优化。 c. 持续探索AI-Agent在存储运维场景的应用与落地,实现故障的自动定位、诊断以及自愈。 d. 持续跟踪HBase、Lindorm、OceanBase等分布式存储领域的前沿技术,主导关键组件的升级与架构演进。
1.负责公司文档型数据库Mongodb相关的研发运维工作,以数字化、可视化、自动化等手段不断提升数据库容量、问题预警及恢复能力,提高数据库系统的可用性; 2.设计与开发自动化运维平台,实现一键部署、备份恢复、扩缩容等功能,推动数据库运维流程标准化与自动化落地; 3.设计与开发用户侧控制台,实现用户侧一站式自助查询、操作、审计等功能,赋能产研提升效率; 4.参与MongoDB数据库集群的规划、架构设计、版本选型与升级策略; 5.负责数据库运维管理规范、开发规范、备份及容灾能力、容量评估规范的持续完善; 6.参与数据库内核设计、评审、优化等工作,提升开发团队在数据库应用方面的技术水平; 7.深入理解公司业务,持续对重要数据库进行优化以满足业务目标,为业务提供MongoDB相关技术咨询、性能调优与故障应急支持; 8.负责数据库容量评估、弹性扩容、资源调度与成本优化; 9.跟踪数据库领域的最新技术发展趋势,积极引入新技术、新工具,优化数据库管理流程与技术架构,提升团队整体技术水平与竞争力
1. 进行运维系统的规划、选型、部署上线,建立规范化的运维体系 2. 负责运维自动化系统和工具的设计和开发,提高自动化运维水平、故障响应能力、优化资源使用率; 3. 主导持续交付、故障分析、流量分配、性能调优等,提高运维、开发协作效率,规范操作流程; 4. 负责AI技术平台分布式高并发在线服务可靠、稳定、高效运行; 5. 实践DevOps新技术和方法,改进DevOps流程,实现开发过程自动化,持续提升设计开发效率和质量; 6. 构建容器云平台,包括镜像仓库、容器集群、应用编排、网络、日志收集、集群监控等; 7. 负责日常K8S运维和开发工作中疑难问题的处理和不断改善; 8. 对现有系统提出优化建议;
1、负责代驾移动端相关组件的研发和维护,编写高质量的代码,负责产品需求的持续迭代和体验优化; 2、支撑代驾业务开发,负责滴滴代驾及其其衍生业务产品的原生组件建设,保障产品的交付质量和效率; 3、参与架构优化提升交付效率,参与性能优化等技术建设; 4、深入钻研React Native跨端技术,参与跨端相关需求的开发以及相关技术优化工作;