携程资深AIOps工程师(容量分析方向)(MJ026510)
社招全职技术团队AI & BI地点:上海状态:招聘
任职要求
1、扎实的基础知识,了解软件工程体系架构,在某一领域有深入理解,有云原生/PaaS/容量领域研发经验优先; 2、有很强的分析问题和解决问题的能力,擅长场景问题的数学建模、数据统计分析;熟练掌握常用的时序预测算法,如ARIMA、Prophet、LSTM、C…
登录查看完整任职要求
微信扫码,1秒登录
工作职责
负责设计和实现携程集团全面容量管理体系,需具备基于AIOPS的容量管理和运维经验。 1、负责携程集团容量管理体系建设,包括高峰和日常场景下的容量预估、容量治理、容量弹性伸缩、容量应急等,构建自动化、智能化的容量托管能力; 2、建设全面资源管理系统,包括但不限于计算、存储等20+种资源管理能力,建设自动化、智能化水位管理能力,建设监控告警巡检等稳定性保障体系等;建设智能化的资源增长预测能力,做出资源需求规划和评估容量风险,最大化资源利用率,建立自动化的良性资源循环; 3、探索计算、存储、带宽等资源的优化方案,通过技术手段实现成本优化,建设/推动多种混部(离在线、存储计算)、容量巡检等能力,优化资源效率,提升性能,降低成本; 4、建设资源容量相关数据体系,并建设和优化容量、ROI等模型,由数据驱动制定资源容量和管理计划,持续优化供需,降低成本; 5、负责和推动携程智能资源容量调度能力提升
包括英文材料
PaaS+
https://www.ibm.com/cn-zh/think/topics/paas
平台即服务 (PaaS) 是一种云计算模型,提供完整的按需云平台(硬件、软件和基础设施),用于开发、运行和管理应用程序。
https://www.ibm.com/think/topics/paas
https://www.youtube.com/watch?v=QAbqJzd0PEE
算法+
https://roadmap.sh/datastructures-and-algorithms
Step by step guide to learn Data Structures and Algorithms in 2025
https://www.hellointerview.com/learn/code
A visual guide to the most important patterns and approaches for the coding interview.
https://www.w3schools.com/dsa/
LSTM+
https://colah.github.io/posts/2015-08-Understanding-LSTMs/
Humans don’t start their thinking from scratch every second.
https://d2l.ai/chapter_recurrent-modern/lstm.html
The term “long short-term memory” comes from the following intuition.
https://developer.nvidia.com/discover/lstm
A Long short-term memory (LSTM) is a type of Recurrent Neural Network specially designed to prevent the neural network output for a given input from either decaying or exploding as it cycles through the feedback loops.
https://www.youtube.com/watch?v=YCzL96nL7j0
Basic recurrent neural networks are great, because they can handle different amounts of sequential data, but even relatively small sequences of data can make them difficult to train.
还有更多 •••
相关职位
社招3年以上信息技术类
1、参与设计和开发AIOps解决方案,帮助实现希音运维的智能化。 2、参与公司容量资源规划:运用机器学习和数据分析技术,预测容量变化、监控和分析系统性能、识别潜在问题,并提供可解释的解决方案,以提高资源利用率,提前发现容量瓶颈。 3、打通故障从告警发现、故障定位、故障恢复的全链路,借助于机器学习、深度学习、大模型等相关技术,帮助进行故障的异常检测、告警降噪、根因定位、预案的决策等,进而提升故障恢复效率。
更新于 2024-07-12南京|上海
社招技术团队AI &
我们正在寻找一位经验丰富的AIOps工程师,加入我们的技术团队,该职位将参与AIOps研发工作,围绕质量、效率、成本三个方面来不断的优化和改进运维工作。 设计和开发AIOps解决方案,帮助实现携程运维的智能化。 参与公司容量资源规划:运用机器学习和数据分析技术,预测容量变化、监控和分析系统性能、识别潜在问题,并提供可解释的解决方案,以提高资源利用率,提前发现容量瓶颈。 打通故障从告警发现、故障定位、故障恢复的全链路,借助于机器学习、深度学习、大模型等相关技术,帮助进行故障的异常检测、告警降噪、根因定位、预案的决策等,进而提升故障恢复效率。
更新于 2025-03-10上海
社招3年以上技术
职位描述:主导构建与演进滴滴网约车核心业务的稳定性保障体系,打造业界领先的稳定性平台。 涵盖风险水位度量、风险巡检与治理、监控报警、故障应急、SLA治理等全链路稳定性保障。 定义服务,链路,领域等维度的SLA/SLO/SLI指标体系,指标驱动稳定性的提升。 构建风险巡检引擎,识别系统与链路等维度风险点,推动风险治理与可用性提升,确保服务质量与链路稳定性。 设计并落地全局故障应急响应机制与处置手段,建立高效的On-call文化与故障复盘流程。 研发和完善基础组件/业务中间件等,推动项目落地,持续跟进和完善项目,更好的支持业务稳定性迭代;
更新于 2025-12-01北京
