logo of ctrip

携程资深AIOps工程师(容量分析方向)(MJ026510)

社招全职技术团队AI & BI地点:上海状态:招聘

任职要求


1、扎实的基础知识,了解软件工程体系架构,在某一领域有深入理解,有云原生/PaaS/容量领域研发经验优先;
2、有很强的分析问题和解决问题的能力,擅长场景问题的数学建模、数据统计分析;熟练掌握常用的时序预测算法,如ARIMA、Prophet、LSTM、C…
登录查看完整任职要求
微信扫码,1秒登录

工作职责


负责设计和实现携程集团全面容量管理体系,需具备基于AIOPS的容量管理和运维经验。

1、负责携程集团容量管理体系建设,包括高峰和日常场景下的容量预估、容量治理、容量弹性伸缩、容量应急等,构建自动化、智能化的容量托管能力;
2、建设全面资源管理系统,包括但不限于计算、存储等20+种资源管理能力,建设自动化、智能化水位管理能力,建设监控告警巡检等稳定性保障体系等;建设智能化的资源增长预测能力,做出资源需求规划和评估容量风险,最大化资源利用率,建立自动化的良性资源循环;
3、探索计算、存储、带宽等资源的优化方案,通过技术手段实现成本优化,建设/推动多种混部(离在线、存储计算)、容量巡检等能力,优化资源效率,提升性能,降低成本;
4、建设资源容量相关数据体系,并建设和优化容量、ROI等模型,由数据驱动制定资源容量和管理计划,持续优化供需,降低成本;
5、负责和推动携程智能资源容量调度能力提升
包括英文材料
PaaS+
算法+
LSTM+
还有更多 •••
相关职位

logo of shein
社招3年以上信息技术类

1、参与设计和开发AIOps解决方案,帮助实现希音运维的智能化。 2、参与公司容量资源规划:运用机器学习和数据分析技术,预测容量变化、监控和分析系统性能、识别潜在问题,并提供可解释的解决方案,以提高资源利用率,提前发现容量瓶颈。 3、打通故障从告警发现、故障定位、故障恢复的全链路,借助于机器学习、深度学习、大模型等相关技术,帮助进行故障的异常检测、告警降噪、根因定位、预案的决策等,进而提升故障恢复效率。

更新于 2024-07-12南京|上海
logo of ctrip
社招技术团队AI &

我们正在寻找一位经验丰富的AIOps工程师,加入我们的技术团队,该职位将参与AIOps研发工作,围绕质量、效率、成本三个方面来不断的优化和改进运维工作。 设计和开发AIOps解决方案,帮助实现携程运维的智能化。 参与公司容量资源规划:运用机器学习和数据分析技术,预测容量变化、监控和分析系统性能、识别潜在问题,并提供可解释的解决方案,以提高资源利用率,提前发现容量瓶颈。 打通故障从告警发现、故障定位、故障恢复的全链路,借助于机器学习、深度学习、大模型等相关技术,帮助进行故障的异常检测、告警降噪、根因定位、预案的决策等,进而提升故障恢复效率。

更新于 2025-03-10上海
logo of didi
社招3年以上技术

职位描述:主导构建与演进滴滴网约车核心业务的稳定性保障体系,打造业界领先的稳定性平台。 涵盖风险水位度量、风险巡检与治理、监控报警、故障应急、SLA治理等全链路稳定性保障。 定义服务,链路,领域等维度的SLA/SLO/SLI指标体系,指标驱动稳定性的提升。 构建风险巡检引擎,识别系统与链路等维度风险点,推动风险治理与可用性提升,确保服务质量与链路稳定性。 设计并落地全局故障应急响应机制与处置手段,建立高效的On-call文化与故障复盘流程。 研发和完善基础组件/业务中间件等,推动项目落地,持续跟进和完善项目,更好的支持业务稳定性迭代;

更新于 2025-12-01北京
logo of huolala
社招3年以上

1、学习并了解公司业务流程,熟悉公司应用、系统、基础设施等各层技术的调用逻辑; 2、负责设计、落地稳定性保障解决方案,包括但不限于风险挖掘、线上问题管理、监控告警管理、生产变更管理、重大活动保障管理、稳定性文化机制等; 3、推进标准保障方案的工具产品化落地及运营,通过产品工具帮助稳定性工作提效降本。

更新于 2022-07-29上海