logo of antgroup

蚂蚁金服蚂蚁集团-可观测存储引擎开发-杭州【数据平台】

社招全职3年以上技术-开发地点:杭州状态:招聘

任职要求


1. 至少三年以上的Linux服务端开发经验,具有后台分布式系统开发经验;
2. 熟悉Rust/C++/GO等任一种开发语言,熟悉通信、多线程、高并发处理、内存管理等技术;
3. 理解可观测性数据协议(如PromQL、OpenMetrics、OTLP),熟悉Prometheus…
登录查看完整任职要求
微信扫码,1秒登录

工作职责


1. 设计并开发可观测性平台的核心模块(Metric、日志、分布式追踪等);
​​2. 优化现有监控系统的性能、可靠性和扩展性,支撑千万级实例的实时数据处理;
3. ​​实时计算能力建设​​:构建指标聚合、降采样、异常检测等实时计算管道,支持秒级延迟的监控告警与业务决策;
​​4. 大规模运维实践​​:设计千万级实例的指标采集方案,解决Agent资源占用、网络传输、服务端写入性能等生产级问题;
​​5. 探索前沿技术(如eBPF、AIOps等),推动智能化根因分析、异常预测等能力落地。
包括英文材料
Linux+
分布式系统+
Rust+
C+++
Go+
还有更多 •••
相关职位

logo of aliyun
社招5年以上云智能集团

阿里云专有云平台监控团队研发,负责云平台和租户实例的一体化可观测产品建设。 负责平台核心功能编码开发,工作领域范围: 1、云监控产品能力建设,为用户提供数据采集,预处理,汇聚,过滤,告警匹配,抑制,事件聚合等指标监控和告警。以及站点监控,拨测,巡检,故障诊断等可观测服务能力。 2、云监控平台基础设施服务研发工作,如存储引擎,云原生Prometheus,Grafana平台体系,高可用部署架构,大规模弹性伸缩架构设计等。 3、云平台资源管理,服务器和软件自动化运维平台建设。持续推进AI 技术深化战略布局中, 围绕AI 和云计算的基础设施建设、AI基础模型平台、企业级AI应用方向构建核心运维应用场景。

更新于 2025-12-14北京|杭州
logo of antgroup
社招3年以上技术-开发

1. 设计并开发可观测性平台的核心模块(Metric、日志、分布式追踪等); ​​2. 优化现有监控系统的性能、可靠性和扩展性,支撑千万级实例的实时数据处理; 3. ​​实时计算能力建设​​:构建指标聚合、降采样、异常检测等实时计算管道,支持秒级延迟的监控告警与业务决策; ​​4. 大规模运维实践​​:设计千万级实例的指标采集方案,解决Agent资源占用、网络传输、服务端写入性能等生产级问题; ​​5. 探索前沿技术(如eBPF、AIOps等),推动智能化根因分析、异常预测等能力落地。

更新于 2025-08-20杭州
logo of antgroup
社招3年以上技术-开发

1、负责蚂蚁全站数据研发平台Dataphin实时相关体系建设,包括通用+智能(流批一体,Codeless)研发平台,质量保障平台,支撑智能化商业决策和运营,让数据快速释放价值; 2、负责蚂蚁全站数据研发平台Dataphin基础设施相关体系建设,保障全站用户稳定,高效,安全进行数据生产建设; 3、负责蚂蚁集团受控加工平台的应用架构设计和系统实施,通过体系化并具有前瞻性的能力建设,确保研发时即受控保障、事前可灰度观测、事中可观测预警、事后可应急快恢,使得数据三板斧和数据SLA在蚂蚁数据域全面落地。

更新于 2025-04-29杭州
logo of aliyun
社招3年以上云智能集团

我们是阿里云 Elasticsearch Serverless 产品研发团队,致力于通过架构与产品的深度创新,重塑搜索分析服务,让搜索更简单: 1. 参与 Serverless 平台核心系统(如管控、调度、高可用等)的架构设计与持续演进,提升系统的稳定性、可扩展性与性能表现; 2. 设计并优化产品的核心能力,包括但不限于智能弹性体系,通过智能预测、调度算法、混部能力等手段,持续提升资源的自动化效率与成本效益; 3. 深入 Elasticsearch 内核,持续攻坚在存算分离与池化架构下的性能、隔离、成本等关键技术难题,构筑产品的核心技术壁垒; 4. 主导场景化解决方案的设计与落地,将底层技术优势转化为用户价值,如研发智能慢查询诊断、一键查询优化等产品化能力,探索并实践 RAG 等 AI 能力深度融合方案; 5. 构建并完善产品的全栈可观测性体系,保障大规模集群的稳定运行,提升自动化问题定位与恢复的效率。

更新于 2025-07-08杭州