希音资深可观测工程师（aiops）

社招全职3年以上信息技术类2024-07-12地点：南京 | 上海状态：招聘

扫码手机上打开

任职要求

1、计算机科学、信息技术或相关领域的学士学位，硕士或以上学历优先。
2、从事AIOps方向3年及以上,有实际的项目落地经验，熟悉常用的异常检测算法、根因分析算法、深度学习算法等，如数模型、LSTM、Transformer等常用模型，并能应用于实际场景，如异常检测、根因分析、日志分析等场景。
3、具备数据敏感性，能够对应用监控数据进行挖掘和分析，提供可解释的解決方案，以解決应用…

登录查看完整任职要求

微信扫码，1秒登录

工作职责

1、参与设计和开发AIOps解决方案，帮助实现希音运维的智能化。
2、参与公司容量资源规划：运用机器学习和数据分析技术，预测容量变化、监控和分析系统性能、识别潜在问题，并提供可解释的解决方案，以提高资源利用率，提前发现容量瓶颈。
3、打通故障从告警发现、故障定位、故障恢复的全链路，借助于机器学习、深度学习、大模型等相关技术，帮助进行故障的异常检测、告警降噪、根因定位、预案的决策等，进而提升故障恢复效率。

📮 投递简历 ✨AI模拟面试

难度：

包括英文材料

学历+

算法+

深度学习+

LSTM+

Transformer+

大模型+

还有更多 •••

登录查看完整学习资料

相关职位

平头哥-AI DevOps 专家-上海

社招5年以上技术-芯片

我们正在寻找具备深厚技术功底、前瞻性视野和丰富实战经验的DevOps平台工程专家，加入我们致力于构建智能化研发基础设施的核心团队。在这里，你将主导下一代AI驱动的Devops平台与智能运维系统的设计与落地，推动软件研发流程向自动化、可观测性、自愈能力和数据驱动决策全面进化。作为团队的技术骨干，你将： 1. 设计打造企业级智能化运维（AIOps）体系基于Python、Go等语言，构建自动化运维工具链与平台化能力，实现基础设施即代码（IaC）；引入异常检测、根因分析、故障传播图谱等AI算法，提升系统可观测性与故障响应速度，推动运维从“被动响应”向“主动预防”转变。 2. 构建全链路智能监控与自愈系统设计并落地覆盖应用、服务、资源的端到端监控体系，集成Prometheus、Grafana、ELK、OpenTelemetry等主流技术栈；结合时序预测（LSTM、Prophet）、无监督异常检测（Isolation Forest、One-Class SVM）等模型，实现性能瓶颈预警、自动诊断与部分场景的闭环自愈。 3. 推动MLOps与DevOps深度融合主导机器学习模型训练流水线（ML Pipeline）与模型服务化（Model Serving）平台建设，设计模型版本管理、A/B测试、流量灰度、监控告警与快速回滚机制，支撑AI能力高效、稳定地规模化落地。

更新于 2026-03-24上海

devops工程师

校招平头哥秋季202

我们正在寻找充满激情、具备技术前瞻性的应届毕业生，加入我们致力于构建智能化研发基础设施的团队。作为AI赋能的DevOps开发工程师，你将参与下一代智能化CI/CD平台与自动化运维系统的开发与优化，融合人工智能技术，推动软件研发流程的自动化、可观测性与自愈能力全面提升。你将参与： 1. 构建智能CI/CD流水线：与研发团队紧密协作，设计并开发高可用、可扩展的持续集成与持续交付平台；探索将机器学习应用于构建失败预测、测试用例智能推荐、资源调度优化等场景，提升研发效率与交付质量。 2. 开发智能化自动化运维工具：使用Python、Go等语言开发自动化脚本与工具，实现基础设施即代码（IaC）；结合AI技术，探索日志异常检测、自动化根因分析等AIOps能力，实现系统运维的智能决策与响应。 3. 打造智能监控与自愈系统：参与构建覆盖全链路的监控体系，集成Prometheus、Grafana、ELK等技术栈；引入时序预测模型与异常检测算法（如LSTM、Isolation Forest等），实现性能瓶颈预警、故障自动诊断与部分场景的自愈响应。 4. 推动DevOps与MLOps融合实践：参与机器学习模型的训练流水线（ML Pipeline）与模型部署（Model Serving）基础设施建设，探索模型版本管理、A/B测试、监控与回滚机制，助力AI能力高效落地。

更新于 2025-08-04上海

诚云科技-资深应用运维工程师-开源大数据平台

社招3年以上诚云科技

1、负责阿里云开源大数据平台（Flink/EMR/Spark/StarRocks/ES/Hadoop/K8S）运维工作，包括可观测性链路、监控报警，故障应急及处置、SLA可用率度量提升等 2、研发大数据运维管控平台，通过自动化提升运维效率，包括交付&变更CICD、智能诊断定界等 3、落地AIOps智能运维，通过AI算法提升稳定性，包括异常检测、根因定位及基于大模型&智能体Agent运维落地等 4、负责稳定性架构设计及项目组织推动落地，包括基础架构云原生化、跨AZ高可用架构、产品可运维性架构演进等

更新于 2025-09-25北京|杭州

诚云科技-资深应用运维工程师-计算平台

社招3年以上诚云科技

1、负责阿里云AI人工智能平台（PAI）运维工作，建设超大规模GPU集群稳定性体系，包括可观测性链路、监控报警，故障应急及处置、SLA可用率度量提升等 2、研发AI运维管控平台，通过自动化提升运维效率，包括交付&变更CICD、GPU节点交付&自愈、智能诊断定界等 3、落地AIOps智能运维，通过AI算法提升稳定性，包括异常检测、根因定位及基于大模型&智能体Agent运维落地等 4、负责稳定性架构设计及项目组织推动落地，包括基础架构云原生化、跨AZ高可用架构、产品可运维性架构演进等

更新于 2025-10-12北京|杭州