logo of shein

希音资深可观测工程师(aiops)

社招全职3年以上信息技术类地点:南京 | 上海状态:招聘

任职要求


1、计算机科学、信息技术或相关领域的学士学位,硕士或以上学历优先。
2、从事AIOps方向3年及以上,有实际的项目落地经验,熟悉常用的异常检测算法、根因分析算法深度学习算法等,如数模型、LSTMTransformer等常用模型,并能应用于实际场景,如异常检测、根因分析、日志分析等场景。
3、具备数据敏感性,能够对应用监控数据进行挖掘和分析,提供可解释的解決方案,以解決应用的性能瓶颈问题(如容量、配置合理性等问题)。
4、熟悉大模型相关技术,具备 agent 开发、检索增强、模型训练优化和数据工程等技术的实际使用经验。
5、熟悉GoPythonR或其他数据分析编程语言,具备相关深度学习框架的开发经验。
6、具备良好的问题解决能力和逻辑思维,能够在复杂环境中快速定位和解决问题。
加分项:
具备FlinkSpark等离线、实时技术相关开发经验。

工作职责


1、参与设计和开发AIOps解决方案,帮助实现希音运维的智能化。
2、参与公司容量资源规划:运用机器学习和数据分析技术,预测容量变化、监控和分析系统性能、识别潜在问题,并提供可解释的解决方案,以提高资源利用率,提前发现容量瓶颈。
3、打通故障从告警发现、故障定位、故障恢复的全链路,借助于机器学习、深度学习、大模型等相关技术,帮助进行故障的异常检测、告警降噪、根因定位、预案的决策等,进而提升故障恢复效率。
包括英文材料
学历+
算法+
深度学习+
LSTM+
Transformer+
大模型+
Go+
Python+
R+
数据分析+
Spark+
相关职位

logo of aliyun
社招3年以上诚云科技

1、负责阿里云开源大数据平台(Flink/EMR/Spark/StarRocks/ES/Hadoop/K8S)运维工作,包括可观测性链路、监控报警,故障应急及处置、SLA可用率度量提升等 2、研发大数据运维管控平台,通过自动化提升运维效率,包括交付&变更CICD、智能诊断定界等 3、落地AIOps智能运维,通过AI算法提升稳定性,包括异常检测、根因定位及基于大模型&智能体Agent运维落地等 4、负责稳定性架构设计及项目组织推动落地,包括基础架构云原生化、跨AZ高可用架构、产品可运维性架构演进等

更新于 2025-09-25
logo of aliyun
社招3年以上诚云科技

1、负责阿里云AI人工智能平台(PAI)运维工作,建设超大规模GPU集群稳定性体系,包括可观测性链路、监控报警,故障应急及处置、SLA可用率度量提升等 2、研发AI运维管控平台,通过自动化提升运维效率,包括交付&变更CICD、GPU节点交付&自愈、智能诊断定界等 3、落地AIOps智能运维,通过AI算法提升稳定性,包括异常检测、根因定位及基于大模型&智能体Agent运维落地等 4、负责稳定性架构设计及项目组织推动落地,包括基础架构云原生化、跨AZ高可用架构、产品可运维性架构演进等

更新于 2025-10-12
logo of aliyun
社招5年以上诚云科技

1、负责阿里云AI人工智能平台(PAI)运维工作,建设超大规模GPU集群稳定性体系,包括可观测性链路、监控报警,故障应急及处置、SLA可用率度量提升等 2、研发AI运维管控平台,通过自动化提升运维效率,包括交付&变更CICD、GPU节点交付&自愈、智能诊断定界等 3、落地AIOps智能运维,通过AI算法提升稳定性,包括异常检测、根因定位及基于大模型&智能体Agent运维落地等 4、负责稳定性架构设计及项目组织推动落地,包括基础架构云原生化、跨AZ高可用架构、产品可运维性架构演进等

更新于 2025-09-30
logo of thead
校招平头哥秋季202

我们正在寻找充满激情、具备技术前瞻性的应届毕业生,加入我们致力于构建智能化研发基础设施的团队。作为AI赋能的DevOps开发工程师,你将参与下一代智能化CI/CD平台与自动化运维系统的开发与优化,融合人工智能技术,推动软件研发流程的自动化、可观测性与自愈能力全面提升。 你将参与: 1. 构建智能CI/CD流水线:与研发团队紧密协作,设计并开发高可用、可扩展的持续集成与持续交付平台;探索将机器学习应用于构建失败预测、测试用例智能推荐、资源调度优化等场景,提升研发效率与交付质量。 2. 开发智能化自动化运维工具:使用Python、Go等语言开发自动化脚本与工具,实现基础设施即代码(IaC);结合AI技术,探索日志异常检测、自动化根因分析等AIOps能力,实现系统运维的智能决策与响应。 3. 打造智能监控与自愈系统:参与构建覆盖全链路的监控体系,集成Prometheus、Grafana、ELK等技术栈;引入时序预测模型与异常检测算法(如LSTM、Isolation Forest等),实现性能瓶颈预警、故障自动诊断与部分场景的自愈响应。 4. 推动DevOps与MLOps融合实践:参与机器学习模型的训练流水线(ML Pipeline)与模型部署(Model Serving)基础设施建设,探索模型版本管理、A/B测试、监控与回滚机制,助力AI能力高效落地。

更新于 2025-08-04