蚂蚁金服蚂蚁集团-SRE专家-云平台【平台工程】

社招全职3年以上技术类-开发2025-07-21地点：上海 | 杭州状态：招聘

扫码手机上打开

任职要求

1. 知名互联网企业专注系统稳定性工作三年以上，或从事系统架构师/资深研发工程师五年以上，java研发功底扎实，有大规模在线服务系统架构设计和稳定性保障经验，对如何做好…

登录查看完整任职要求

微信扫码，1秒登录

工作职责

1、制定所负责业务的风险&效能&成本架构演进规划，协同&推动全局架构演进，以及前瞻性的设计规划，包括内部各子域的业务架构、数据架构、信息架构、技术架构，支撑各子域间高质量高效率协同，提升业务交付效率和运营效率；
2、识别负责业务的风险&效能&成本问题，制定相应的解决方案，并协同方案落地，最终取得业务结果；
3、制定所负责域的智能化规划，运用好平台已有的数据智能能力，对于团队工作问题提出针对性的数据智能的解决方案，改进工作效率和质量；
4、识别风险&效能&成本系统建设和运营过程中影响团队效率的其他问题，制定标准化、流程化、系统化、产品化等改进计划。

📮 投递简历 ✨AI模拟面试

难度：

包括英文材料

Java+

系统设计+

相关职位

阿里云智能-大数据研发专家-Maxcompute

社招8年以上技术类-开发

1、承担MaxCompute管控系统架构师角色，负责产品技术架构演进方向 2、面向全球不同客户设计合理的产品方案，梳理存储、计算、售卖、控制台、运维体系架构，确定技术方案选型 3、承担MaxCompute管控系统设计、研发、测试、发布与运维 4、与MaxCompute各研发团队+SRE中台团队+阿里云售卖平台配合，共同推进技术项目按要求落地

更新于 2025-04-02杭州

阿里云智能-基础平台开发技术专家-集群运维管理平台-杭州

社招5年以上技术类-开发

1、可独立负责统一运维平台产品的业务域，采用合理的设计模式对系统进行抽象设计，架构具有良好扩展性 2. 负责功能模块的核心功能研发，把控研发进度按时交付高质量代码，并能快速高效解决线上问题 3. 作为资深技术骨干通过技术方案/代码评审/应急复盘等形式，提升团队技术水平，全方位提高工程质量 4. 关注阿里云内各域云产品运维工具及业界相关领域的的演进，理解所负责业务域的系统结构及问题，管理对应业务域的优先级和迭代规划，持续重构优化负责业务域，保持系统的稳定性和扩展性

更新于 2025-07-03杭州

蚂蚁集团-高级DBA/存储运维工程师-成都

社招3年以上技术-SRE

1. 系统运维与稳定性体系建设 a. 负责HBase/Lindorm、OceanBase等分布式数据库/存储系统的部署、监控、高可用设计以及故障应急，保障99.999%+稳定性SLA b. 主导存储集群性能调优、容灾方案设计(如多机房容灾、数据备份恢复、全球多活、全球合规存储等)，提升系统的健壮性。 c. 深入分析慢查询、热点等疑难场景，输出系统性优化解决方案，并实现平台化落地。 d. 针对业务场景设计存储选型方案，平衡性能、成本与可维护性。 e. 制定存储产品，组件运维、变更SOP，以及容灾演练机制与应急预案。 f. 推动开发团队落地存储使用最佳实践、以及平台能力的持续演进，降低人为故障风险。 2. 智能化运维体系建设 a. 开发运维工具链(如监控告警、自动扩缩容、巡检等)，推动运维效率的持续提升。 b. 持续积累沉淀专家经验与知识库，基于RAG等技术完善智能答疑的能力，并协助完成运维智能体的持续构建与优化。 c. 持续探索AI-Agent在存储运维场景的应用与落地，实现故障的自动定位、诊断以及自愈。 d. 持续跟踪HBase、Lindorm、OceanBase等分布式存储领域的前沿技术，主导关键组件的升级与架构演进。

更新于 2025-05-15成都

腾讯云-售后技术支持专家

社招5年以上腾讯云产品

1.负责腾讯云公有云客户云上售后SRE专家支持工作，为客户提供容灾高可用，业务部署优化，架构优化，成本优化，容量管理，业务连续性治理等方面的专家服务； 2.帮助客户进行应用部署架构的梳理与优化，通过云产品自身提供的高可用能力或者业界主流的容灾方案，为客户提供容灾高可用优化方案的设计与实施； 3.通过混沌工程等演习手段，设计并实施客户应用业务层面的容灾方案与验证； 4.对常见的互联网IT故障，设计应急预案并工具化落地，帮助客户实现容灾自动化逃生能力，达到客户业务对 RTO/RPO 要求； 5.通过产品化，工具化的思路，提升客户在云上SRE管理与治理方面的体验与效率。

更新于 2025-07-21北京