蚂蚁金服蚂蚁集团-可观测存储引擎开发-杭州
任职要求
1. 至少三年以上的Linux服务端开发经验,具有后台分布式系统开发经验; 2. 熟悉Rust/C++/GO等任一种开发语言,熟悉通信、多线程、高并发处理、内存管理等技术; 3. 理解可观测性数据协议(如PromQL、OpenMetrics、OTLP),熟悉Prometheus…
工作职责
1. 设计并开发可观测性平台的核心模块(Metric、日志、分布式追踪等); 2. 优化现有监控系统的性能、可靠性和扩展性,支撑千万级实例的实时数据处理; 3. 实时计算能力建设:构建指标聚合、降采样、异常检测等实时计算管道,支持秒级延迟的监控告警与业务决策; 4. 大规模运维实践:设计千万级实例的指标采集方案,解决Agent资源占用、网络传输、服务端写入性能等生产级问题; 5. 探索前沿技术(如eBPF、AIOps等),推动智能化根因分析、异常预测等能力落地。
1. 设计并开发可观测性平台的核心模块(Metric、日志、分布式追踪等); 2. 优化现有监控系统的性能、可靠性和扩展性,支撑千万级实例的实时数据处理; 3. 实时计算能力建设:构建指标聚合、降采样、异常检测等实时计算管道,支持秒级延迟的监控告警与业务决策; 4. 大规模运维实践:设计千万级实例的指标采集方案,解决Agent资源占用、网络传输、服务端写入性能等生产级问题; 5. 探索前沿技术(如eBPF、AIOps等),推动智能化根因分析、异常预测等能力落地。
阿里专有云应用运维与可观测团队,为专有云客户提供极致用云的解决方案与产品矩阵,帮助企业更好地管理IT服务和基础设施,提高运维效率、运维安全性以及业务连续性 岗位职责: 1、 参与并负责云+应用一体化运维平台的设计与实现,包括应用蓝图、自动化发布、应用容灾、资源编排等能力 2、参与并负责全景监控的设计与实现,围绕健康画像构建监管控一体化AIOPS运维平台,实现故障的快速发现、智能定位以及高效恢复链路闭环 3、参与并负责专有云日志服务SLS的设计与实现,为Log、Metric、Trace等可观测数据提供一站式采集、加工、查询与分析、可视化与告警、消费与投递等能力 4、参与并负责专有云应用市场的设计与实现,基于开发者中心与交付中心打造专有云产品生态体系 5、参与并负责专有云统一CMDB、流程引擎、终态引擎、监控采集和计算等基础技术的设计与实现
阿里专有云应用运维与可观测团队,为专有云客户提供极致用云的解决方案与产品矩阵,帮助企业更好地管理IT服务和基础设施,提高运维效率、运维安全性以及业务连续性 岗位职责: 1、 参与并负责云+应用一体化运维平台的设计与实现,包括应用蓝图、自动化发布、应用容灾、资源编排等能力 2、参与并负责全景监控的设计与实现,围绕健康画像构建监管控一体化AIOPS运维平台,实现故障的快速发现、智能定位以及高效恢复链路闭环 3、参与并负责专有云日志服务SLS的设计与实现,为Log、Metric、Trace等可观测数据提供一站式采集、加工、查询与分析、可视化与告警、消费与投递等能力 4、参与并负责专有云应用市场的设计与实现,基于开发者中心与交付中心打造专有云产品生态体系 5、参与并负责专有云统一CMDB、流程引擎、终态引擎、监控采集和计算等基础技术的设计与实现