logo of antgroup

蚂蚁金服蚂蚁集团-SRE专家-国内【平台工程】

社招全职3年以上技术类-开发地点:上海 | 杭州状态:招聘

任职要求


1. 知名互联网企业专注系统稳定性工作三年以上,或从事系统架构师/资深研发工程师五年以上,java研发功底扎实,有大规模在线服务系统架构设计和稳定性保障经验,对如何做好系统稳定性保障有全面深入的理解;
2、喜欢做系统连续性、稳定性相关工作,乐于解决技术难题,愿意在技术风险领域长期发展;
3、能够跟随技术趋势,持续探索新方法新思路,全力以赴拿结果;

工作职责


1. 面向业务构建连续性策略,为集团内部及外部客户提供行业绝对领先的可靠性技术服务。围绕业务持续安全、可用目标,构建多端智能预警、根因定位、动线分析、资金安全保障、自愈、降级、限流、智能运维能力,协同&推动全局架构演进,进行前瞻性的设计与规划,为全集团业务持续稳定运行负责;
2. 面向全站基础架构,构建站点容灾、建站、弹性等全局技术架构,保障各站点稳定运行,提升业务可用率;
3. 识别业务发展过程中的效能&成本问题,结合AI与智能化技术,进行工程效率提升,降低流量成本与算力成本,改进工程交付效率与质量;
4. 围绕各业务大促活动,提供高性能、高可用、资金安全的常态活动保障方案,构建灵活弹性的容量调度策略,为各头部电商平台提供峰值秒杀技术能力与容量服务;
包括英文材料
Java+
系统设计+
相关职位

logo of antgroup
社招3年以上技术类-开发

1、制定所负责业务的风险&效能&成本架构演进规划,协同&推动全局架构演进,以及前瞻性的设计规划,包括内部各子域的业务架构、数据架构、信息架构、技术架构,支撑各子域间高质量高效率协同,提升业务交付效率和运营效率; 2、识别负责业务的风险&效能&成本问题,制定相应的解决方案,并协同方案落地,最终取得业务结果; 3、制定所负责域的智能化规划,运用好平台已有的数据智能能力,对于团队工作问题提出针对性的数据智能的解决方案,改进工作效率和质量; 4、识别风险&效能&成本系统建设和运营过程中影响团队效率的其他问题,制定标准化、流程化、系统化、产品化等改进计划。

更新于 2025-06-16
logo of antgroup
社招3年以上技术类-开发

1、制定所负责业务的风险&效能&成本架构演进规划,协同&推动全局架构演进,以及前瞻性的设计规划,包括内部各子域的业务架构、数据架构、信息架构、技术架构,支撑各子域间高质量高效率协同,提升业务交付效率和运营效率; 2、识别负责业务的风险&效能&成本问题,制定相应的解决方案,并协同方案落地,最终取得业务结果; 3、制定所负责域的智能化规划,运用好平台已有的数据智能能力,对于团队工作问题提出针对性的数据智能的解决方案,改进工作效率和质量; 4、识别风险&效能&成本系统建设和运营过程中影响团队效率的其他问题,制定标准化、流程化、系统化、产品化等改进计划。

更新于 2025-07-21
logo of bytedance
社招3年以上A90366

1、负责字节跳动数据平台开发套件DataLeap稳定性保障、从发现、止血与恢复链路运维体系建设,保障业务连续性; 2、负责字节跳动自研大数据产品以及开源产品的自动化运维,提升交付、运维与技术支持的效能; 3、负责沉淀大数据运维经验向文档化、工具化以及标准化推进,促进字节跳动大数据平台运维效能与安全生产。

更新于 2024-12-04
logo of liauto
社招5年以上智能与信息技术

1.负责理想汽车软件、芯片研发基础设施的运营管理,保障核心应用的稳定可靠运行,结合业界技术演进迭代基础设施架构,通过规范化、标准化、自动化、智能化等手段不断提升运营效率和服务质量。 2.研发构建核心基础设施工具链,以及相应监控、配置、日志、智能化运营(AIOps)能力建设,制定业务相关的运维技术方案,确保业务高效稳定的运行。 3.负责服务的容量规划和预测,软件的性能分析以及系统调优,软硬件系统的采购与服务部署等。 4.负责高可用和可观测体系建设,制定如全链路监控、故障定位、自动恢复、异地容灾等方案并落地实施,保障业务持续可用。 5.和算法、工程团队协同完成研发基础设施的智能化改造,构建新一代 AI 友好型研发基础设施。 6.负责技术运营(SRE)团队的日常管理,带领团队达成业务建设目标。