携程资深AIOps工程师(容量分析方向)(MJ026510)
社招全职技术团队AI & BI地点:上海状态:招聘
任职要求
1、扎实的基础知识,了解软件工程体系架构,在某一领域有深入理解,有云原生/PaaS/容量领域研发经验优先; 2、有很强的分析问题和解决问题的能力,擅长场景问题的数学建模、数据统计分析;熟练掌握常用的时序预测算法,如ARIMA、Prophet、LSTM、CNN、Transformer等模型 3、熟练掌握 Python/Java 等至少一门编程语言,熟悉基本数据结构和算法; 4、有良好的沟通能力和团队意识,不畏惧困难,积极乐观,有责任心。 5、具备全球化智能资源调度系统建设,资源容量系统建设等相关经验者优先
工作职责
负责设计和实现携程集团全面容量管理体系,需具备基于AIOPS的容量管理和运维经验。 1、负责携程集团容量管理体系建设,包括高峰和日常场景下的容量预估、容量治理、容量弹性伸缩、容量应急等,构建自动化、智能化的容量托管能力; 2、建设全面资源管理系统,包括但不限于计算、存储等20+种资源管理能力,建设自动化、智能化水位管理能力,建设监控告警巡检等稳定性保障体系等;建设智能化的资源增长预测能力,做出资源需求规划和评估容量风险,最大化资源利用率,建立自动化的良性资源循环; 3、探索计算、存储、带宽等资源的优化方案,通过技术手段实现成本优化,建设/推动多种混部(离在线、存储计算)、容量巡检等能力,优化资源效率,提升性能,降低成本; 4、建设资源容量相关数据体系,并建设和优化容量、ROI等模型,由数据驱动制定资源容量和管理计划,持续优化供需,降低成本; 5、负责和推动携程智能资源容量调度能力提升
包括英文材料
PaaS+
https://www.ibm.com/cn-zh/think/topics/paas
平台即服务 (PaaS) 是一种云计算模型,提供完整的按需云平台(硬件、软件和基础设施),用于开发、运行和管理应用程序。
https://www.ibm.com/think/topics/paas
https://www.youtube.com/watch?v=QAbqJzd0PEE
算法+
https://roadmap.sh/datastructures-and-algorithms
Step by step guide to learn Data Structures and Algorithms in 2025
https://www.hellointerview.com/learn/code
A visual guide to the most important patterns and approaches for the coding interview.
https://www.w3schools.com/dsa/
LSTM+
https://colah.github.io/posts/2015-08-Understanding-LSTMs/
Humans don’t start their thinking from scratch every second.
https://d2l.ai/chapter_recurrent-modern/lstm.html
The term “long short-term memory” comes from the following intuition.
https://developer.nvidia.com/discover/lstm
A Long short-term memory (LSTM) is a type of Recurrent Neural Network specially designed to prevent the neural network output for a given input from either decaying or exploding as it cycles through the feedback loops.
https://www.youtube.com/watch?v=YCzL96nL7j0
Basic recurrent neural networks are great, because they can handle different amounts of sequential data, but even relatively small sequences of data can make them difficult to train.
Transformer+
https://huggingface.co/learn/llm-course/en/chapter1/4
Breaking down how Large Language Models work, visualizing how data flows through.
https://poloclub.github.io/transformer-explainer/
An interactive visualization tool showing you how transformer models work in large language models (LLM) like GPT.
https://www.youtube.com/watch?v=wjZofJX0v4M
Breaking down how Large Language Models work, visualizing how data flows through.
Python+
https://liaoxuefeng.com/books/python/introduction/index.html
中文,免费,零起点,完整示例,基于最新的Python 3版本。
https://www.learnpython.org/
a free interactive Python tutorial for people who want to learn Python, fast.
https://www.youtube.com/watch?v=K5KVEU3aaeQ
Master Python from scratch 🚀 No fluff—just clear, practical coding skills to kickstart your journey!
https://www.youtube.com/watch?v=rfscVS0vtbw
This course will give you a full introduction into all of the core concepts in python.
Java+
https://www.youtube.com/watch?v=eIrMbAQSU34
Master Java – a must-have language for software development, Android apps, and more! ☕️ This beginner-friendly course takes you from basics to real coding skills.
数据结构+
https://www.youtube.com/watch?v=8hly31xKli0
In this course you will learn about algorithms and data structures, two of the fundamental topics in computer science.
https://www.youtube.com/watch?v=B31LgI4Y4DQ
Learn about data structures in this comprehensive course. We will be implementing these data structures in C or C++.
https://www.youtube.com/watch?v=CBYHwZcbD-s
Data Structures and Algorithms full course tutorial java
相关职位
社招3年以上信息技术类
1、参与设计和开发AIOps解决方案,帮助实现希音运维的智能化。 2、参与公司容量资源规划:运用机器学习和数据分析技术,预测容量变化、监控和分析系统性能、识别潜在问题,并提供可解释的解决方案,以提高资源利用率,提前发现容量瓶颈。 3、打通故障从告警发现、故障定位、故障恢复的全链路,借助于机器学习、深度学习、大模型等相关技术,帮助进行故障的异常检测、告警降噪、根因定位、预案的决策等,进而提升故障恢复效率。
更新于 2024-07-12
社招技术团队AI &
我们正在寻找一位经验丰富的AIOps工程师,加入我们的技术团队,该职位将参与AIOps研发工作,围绕质量、效率、成本三个方面来不断的优化和改进运维工作。 设计和开发AIOps解决方案,帮助实现携程运维的智能化。 参与公司容量资源规划:运用机器学习和数据分析技术,预测容量变化、监控和分析系统性能、识别潜在问题,并提供可解释的解决方案,以提高资源利用率,提前发现容量瓶颈。 打通故障从告警发现、故障定位、故障恢复的全链路,借助于机器学习、深度学习、大模型等相关技术,帮助进行故障的异常检测、告警降噪、根因定位、预案的决策等,进而提升故障恢复效率。
更新于 2025-03-10

社招3年以上
1、学习并了解公司业务流程,熟悉公司应用、系统、基础设施等各层技术的调用逻辑; 2、负责设计、落地稳定性保障解决方案,包括但不限于风险挖掘、线上问题管理、监控告警管理、生产变更管理、重大活动保障管理、稳定性文化机制等; 3、推进标准保障方案的工具产品化落地及运营,通过产品工具帮助稳定性工作提效降本。
更新于 2022-07-29