携程资深AIOps工程师(MJ026511)
任职要求
职位要求: 计算机科学、信息技术或相关领域的学士学位,硕士或以上学历优先。 熟悉常用的根因分析算法、深度学习算法,如RNN、LSTM、Transformer等常用模型,并能应用于实际场景,如异常检测、根因分析、日志分析等场景。 具备数据敏感性,能够对应用监控数据进行挖掘和分析,提供可解释的解决方案,以解决应用的性能瓶颈问题(如容量、配置合理性等问题)。 熟悉大模型相关技术,具备检索增强、模型训练优化和数据工程等技术的实际使用经验。 熟悉Python、R或其他数据分析编程语言,具备相关深度学习框架的开发经验。 具备良好的问题解决能力和逻辑思维,能够在复杂环境中快速定位和解决问题。 加分项: 具备Flink,Spark等离线、实时技术相关开发经验。
工作职责
我们正在寻找一位经验丰富的AIOps工程师,加入我们的技术团队,该职位将参与AIOps研发工作,围绕质量、效率、成本三个方面来不断的优化和改进运维工作。 设计和开发AIOps解决方案,帮助实现携程运维的智能化。 参与公司容量资源规划:运用机器学习和数据分析技术,预测容量变化、监控和分析系统性能、识别潜在问题,并提供可解释的解决方案,以提高资源利用率,提前发现容量瓶颈。 打通故障从告警发现、故障定位、故障恢复的全链路,借助于机器学习、深度学习、大模型等相关技术,帮助进行故障的异常检测、告警降噪、根因定位、预案的决策等,进而提升故障恢复效率。
负责设计和实现携程集团全面容量管理体系,需具备基于AIOPS的容量管理和运维经验。 1、负责携程集团容量管理体系建设,包括高峰和日常场景下的容量预估、容量治理、容量弹性伸缩、容量应急等,构建自动化、智能化的容量托管能力; 2、建设全面资源管理系统,包括但不限于计算、存储等20+种资源管理能力,建设自动化、智能化水位管理能力,建设监控告警巡检等稳定性保障体系等;建设智能化的资源增长预测能力,做出资源需求规划和评估容量风险,最大化资源利用率,建立自动化的良性资源循环; 3、探索计算、存储、带宽等资源的优化方案,通过技术手段实现成本优化,建设/推动多种混部(离在线、存储计算)、容量巡检等能力,优化资源效率,提升性能,降低成本; 4、建设资源容量相关数据体系,并建设和优化容量、ROI等模型,由数据驱动制定资源容量和管理计划,持续优化供需,降低成本; 5、负责和推动携程智能资源容量调度能力提升
1、参与设计和开发AIOps解决方案,帮助实现希音运维的智能化。 2、参与公司容量资源规划:运用机器学习和数据分析技术,预测容量变化、监控和分析系统性能、识别潜在问题,并提供可解释的解决方案,以提高资源利用率,提前发现容量瓶颈。 3、打通故障从告警发现、故障定位、故障恢复的全链路,借助于机器学习、深度学习、大模型等相关技术,帮助进行故障的异常检测、告警降噪、根因定位、预案的决策等,进而提升故障恢复效率。

1、学习并了解公司业务流程,熟悉公司应用、系统、基础设施等各层技术的调用逻辑; 2、负责设计、落地稳定性保障解决方案,包括但不限于风险挖掘、线上问题管理、监控告警管理、生产变更管理、重大活动保障管理、稳定性文化机制等; 3、推进标准保障方案的工具产品化落地及运营,通过产品工具帮助稳定性工作提效降本。