携程资深测试开发工程师(SRE组)(MJ030736)
1 系统设计与架构:主导业务系统的架构设计,针对业务需求制定技术架构方案,保证系统的扩展性、高性能与高可用性。同时,负责对现有系统进行性能优化和架构升级。2 功能开发与代码实现:产品需求开发,包括详细设计、编码、单元测试、集成测试等,确保系统功能的实现和交付。3 性能优化与安全保障:对后端系统进行性能监控和分析,以及SRE相关工作。负责系统的安全防护工作,保障系统数据安全和业务安全。4 技术选型与前沿探索:推进新技术的调研和落地,技术难题攻坚与优化。
我们正在寻找一名资深CI/CD 系统开发专家,专注于 Hologres 实时数据仓库引擎的持续集成与持续交付系统的开发与优化。Hologres 是阿里巴巴自研的实时数据仓库引擎,支持海量数据的高并发、低延迟查询,广泛应用于实时数据分析、报表展示、BI 分析等场景。 你将参与构建和优化 Hologres 的自动化构建、测试、部署和发布系统,推动Hologres研发部署流程高效、稳定、可扩展。该岗位对系统架构、工程能力和技术深度有较高要求,适合有大型分布式系统 CI/CD 经验的高级工程师或架构师,或者有大数据系统研发经验的高级工程师。
我们正在寻找具备深厚技术功底、前瞻性视野和丰富实战经验的DevOps平台工程专家,加入我们致力于构建智能化研发基础设施的核心团队。在这里,你将主导下一代AI驱动的CI/CD平台与智能运维系统的设计与落地,推动软件研发流程向自动化、可观测性、自愈能力和数据驱动决策全面进化。 作为团队的技术骨干,你将: 1. 设计并构建高可用、智能化的CI/CD平台 主导持续集成与持续交付系统的架构演进,支持大规模分布式研发协作;探索机器学习在构建失败预测、测试用例智能推荐、资源调度优化等场景的应用,显著提升交付效率与稳定性。 2. 打造企业级智能化运维(AIOps)体系 基于Python、Go等语言,构建自动化运维工具链与平台化能力,实现基础设施即代码(IaC);引入异常检测、根因分析、故障传播图谱等AI算法,提升系统可观测性与故障响应速度,推动运维从“被动响应”向“主动预防”转变。 3. 构建全链路智能监控与自愈系统 设计并落地覆盖应用、服务、资源的端到端监控体系,集成Prometheus、Grafana、ELK、OpenTelemetry等主流技术栈;结合时序预测(LSTM、Prophet)、无监督异常检测(Isolation Forest、One-Class SVM)等模型,实现性能瓶颈预警、自动诊断与部分场景的闭环自愈。 4. 推动MLOps与DevOps深度融合 主导机器学习模型训练流水线(ML Pipeline)与模型服务化(Model Serving)平台建设,设计模型版本管理、A/B测试、流量灰度、监控告警与快速回滚机制,支撑AI能力高效、稳定地规模化落地。