希音资深可观测工程师(aiops)
任职要求
1、计算机科学、信息技术或相关领域的学士学位,硕士或以上学历优先。 2、从事AIOps方向3年及以上,有实际的项目落地经验,熟悉常用的异常检测算法、根因分析算法、深度学习算法等,如数模型、LSTM、Transformer等常用模型,并能应用于实际场景,如异常检测、根因分析、日志分析等场景。 3、具备数据敏感性,能够对应用监控数据进行挖掘和分析,提供可解释的解決方案,以解決应用的性能瓶颈问题(如容量、配置合理性等问题)。 4、熟悉大模型相关技术,具备 agent 开发、检索增强、模型训练优化和数据工程等技术的实际使用经验。 5、熟悉Go、Python、R或其他数据分析编程语言,具备相关深度学习框架的开发经验。 6、具备良好的问题解决能力和逻辑思维,能够在复杂环境中快速定位和解决问题。 加分项: 具备Flink,Spark等离线、实时技术相关开发经验。
工作职责
1、参与设计和开发AIOps解决方案,帮助实现希音运维的智能化。 2、参与公司容量资源规划:运用机器学习和数据分析技术,预测容量变化、监控和分析系统性能、识别潜在问题,并提供可解释的解决方案,以提高资源利用率,提前发现容量瓶颈。 3、打通故障从告警发现、故障定位、故障恢复的全链路,借助于机器学习、深度学习、大模型等相关技术,帮助进行故障的异常检测、告警降噪、根因定位、预案的决策等,进而提升故障恢复效率。
1、负责阿里云开源大数据平台(Flink/EMR/Spark/StarRocks/ES/Hadoop/K8S)运维工作,包括可观测性链路、监控报警,故障应急及处置、SLA可用率度量提升等 2、研发大数据运维管控平台,通过自动化提升运维效率,包括交付&变更CICD、智能诊断定界等 3、落地AIOps智能运维,通过AI算法提升稳定性,包括异常检测、根因定位及基于大模型&智能体Agent运维落地等 4、负责稳定性架构设计及项目组织推动落地,包括基础架构云原生化、跨AZ高可用架构、产品可运维性架构演进等
1、负责阿里云AI人工智能平台(PAI)运维工作,建设超大规模GPU集群稳定性体系,包括可观测性链路、监控报警,故障应急及处置、SLA可用率度量提升等 2、研发AI运维管控平台,通过自动化提升运维效率,包括交付&变更CICD、GPU节点交付&自愈、智能诊断定界等 3、落地AIOps智能运维,通过AI算法提升稳定性,包括异常检测、根因定位及基于大模型&智能体Agent运维落地等 4、负责稳定性架构设计及项目组织推动落地,包括基础架构云原生化、跨AZ高可用架构、产品可运维性架构演进等
1、负责阿里云AI人工智能平台(PAI)运维工作,建设超大规模GPU集群稳定性体系,包括可观测性链路、监控报警,故障应急及处置、SLA可用率度量提升等 2、研发AI运维管控平台,通过自动化提升运维效率,包括交付&变更CICD、GPU节点交付&自愈、智能诊断定界等 3、落地AIOps智能运维,通过AI算法提升稳定性,包括异常检测、根因定位及基于大模型&智能体Agent运维落地等 4、负责稳定性架构设计及项目组织推动落地,包括基础架构云原生化、跨AZ高可用架构、产品可运维性架构演进等
我们正在寻找充满激情、具备技术前瞻性的应届毕业生,加入我们致力于构建智能化研发基础设施的团队。作为AI赋能的DevOps开发工程师,你将参与下一代智能化CI/CD平台与自动化运维系统的开发与优化,融合人工智能技术,推动软件研发流程的自动化、可观测性与自愈能力全面提升。 你将参与: 1. 构建智能CI/CD流水线:与研发团队紧密协作,设计并开发高可用、可扩展的持续集成与持续交付平台;探索将机器学习应用于构建失败预测、测试用例智能推荐、资源调度优化等场景,提升研发效率与交付质量。 2. 开发智能化自动化运维工具:使用Python、Go等语言开发自动化脚本与工具,实现基础设施即代码(IaC);结合AI技术,探索日志异常检测、自动化根因分析等AIOps能力,实现系统运维的智能决策与响应。 3. 打造智能监控与自愈系统:参与构建覆盖全链路的监控体系,集成Prometheus、Grafana、ELK等技术栈;引入时序预测模型与异常检测算法(如LSTM、Isolation Forest等),实现性能瓶颈预警、故障自动诊断与部分场景的自愈响应。 4. 推动DevOps与MLOps融合实践:参与机器学习模型的训练流水线(ML Pipeline)与模型部署(Model Serving)基础设施建设,探索模型版本管理、A/B测试、监控与回滚机制,助力AI能力高效落地。