阿里云阿里云智能-高可用智能化光网络解决方案架构师-AI领域-北京/杭州
任职要求
1.通信、电子、计算机或相关专业,5年以上光传输/承载网领域工作经验;
2.有实际工程项目落地经验,能平衡各相关方长、短期诉求,推动关键领域问题解决;
3.有较强的问题分析和问题解决能力,可以通过设计测试用例、评审流程,确保功能的交付质量和鲁棒性;
4.具备光网络硬件研发及复杂硬件产品系统设计经验,精通 OTN、DWDM、ROADM等光网络技术;
5.深度理解 OMSP、SNCP、OCHP 等保护机制原理与实现;
6.具备控制平面的设计或开发经验,具备大型光网络(骨干网、DCI)高可用方案设计或交付经验;
7.熟悉管理网络,Op…工作职责
1.负责设计大容量开放光网络的高可用整体架构,制定端到端可靠性技术规范覆盖网络的整个生命周期; 2.负责设计开放光网络架构的保护及重路由方案,包括设备北向接口能力、管理网高可用、保护/重路由机制、网络故障定位能力等; 3.负责设计光缆智能化管理和维护体系,包括光缆路由和质量监控的方案、设备组网方式,哑资源全生命周期管理流程等; 4.负责设计光网络和光缆管理所需的硬件设备和板卡规格,并推动在厂家产品中落地; 5.负责设计测试方案并完成设备、系统、网络层级的测试验收,推动架构落地; 6.负责跟踪网络运行情况,分析实际运行数据并完成多层级的设计方案优化和闭环。
1、构建全景网络可观测性平台:打造覆盖物理和虚拟网络的Streaming Telemetry数据管道,整合GNMI、NETCONF、IPFIX/NetFlow、SNMP等多源数据,为AIOps提供高质量、高时效性的数据基石; 2、研发智能诊断与根因分析系统:应用机器学习与深度学习算法,对海量网络指标、日志、事件进行异常检测、关联分析与智能降噪,快速定位从光模块、交换机硬件、协议邻居到应用层流量的全链路故障根因; 3、探索LLM与Agent的创新应用: 1)智能运维助理:构建基于RAG(检索增强生成)的运维对话机器人,使其能理解自然语言问题,自动查询知识库与监控数据,提供精准的故障排查指引和网络状态报告;2)自动化修复与智能Runbook:训练运维Agent,使其能够安全、可控地调用网络工具与API;基于对故障场景的理解,自主生成、推荐甚至执行修复方案与应急预案(Runbook); 4、建设容量与风险预测能力:基于历史数据和业务增长模型,预测网络容量瓶颈、高风险链路与“亚健康”设备,驱动主动扩容和预防性维护; 5、打造坚如磐石的工程体系:遵循最佳工程实践,设计和开发高可用、可扩展的AIOps平台与服务;保障从数据采集、模型训练、在线推理到自动化闭环全流程的稳定性和性能。
1、负责建设边缘云的持续运维能力; • 事前:建立并持续优化系统运维的预警机制,进行稳定性风险的分析与管控,前置梳理风险漏洞,降低风险/故障的发生率; • 事中:建立并持续优化系统运维的监控机制,快速发现、通报、定位及处理疑难故障; • 事后:针对疑难故障,能够快速分析、诊断、定位问题,协同开发人员解决问题;建立健全快速恢复服务机制,降低业务受损程度,确保产品、业务稳定运行;牵头问题复盘工作,通过架构优化等根治引起不可用的问题。 2、智能化/自动化运营能力建设 • 负责智能化/自动化的运维场工具能力落地开发,编写自动化运维脚本,帮助解决生产系统遇到的容量、性能、稳定性等问题,推进网络自动化运维能力建设; • 负责精细化数据运营,通过对日常运维指标、问题、风险进行分析和研究,建立模型、计算ROI/TCO解决问题,跟踪改进优化措施落地,保证可持续运营; • 负责高可用保障体系建设,如故障自动定位、自动恢复、自适应容灾、云原生技术实施及落地等,保障业务持续可用。 3、负责维护海内外的边缘云基础设施网络; • 全球全球骨干网、城域网、数据中心网络、光网络巡检维护以及故障定位和恢复 • 全球互联网稳定性和质量运营,负责互联网终端用户、云厂商到阿里云互联互通质量相关的售前、售后的技术服务支持和以及质量优化所需改造优化工作 • 全球网络运营风险管理,负责网络生命周期的风险识别、规避控制和消除,涉及架构引入测试、验收、风险防范,确保网络服务满足稳定性需求。 • 互联链路质量运营,负责网络设备光模块/AOC/DAC线缆的产品引入、质量控制、线上运营、链路故障维修支持和能力建设。 4、运营架构落地&质量优化体系建设 • 网络运维高可用标准制定、研发测试、准入测试,包括新架构引入、架构HLD、LLD讨论、运营标准制定、研发测试、准入测试。 • 制定与优化本领域内的相关新产品\新功能的的SLA协议承诺,并基于SLA要求,评审新产品\新功能的架构是否可用、安全; • 积累网络运维最佳实践,输出运维技术文档、知识库建设等。 5、基础网络运营生命周期优化保障 • 全球网络资源建设、标准化服务开通,自动化交付能力建设&优化&提效,确保高质量网络资源交付履约;保证业务增长需求; • 全球网络变更方案全生命周期自动化体系架构设计、技术演进改造变更实施相关业务流程、风控策略制定并落地,优化工程方案制定及自动化能力开发,完成变更方案业务逻辑在自动化体系中的编排、落地、维护,并负责变更场景常态化运营前的测试、灰度,以及变更执行和过程中的异常处理; • 全球网络裁撤体系流程设计、方案制定,自动化落地;对接、协调其它专业团队完成网络裁撤前的准备,并负责裁撤变更执行的跟踪,处理变更执行过程中的异常,保证网络资源安全高效下线。 加分项 1.有传输系统维护经验,熟悉常见的传输组网模式、备份模式;能够对传输常见问题熟练应对; 2.熟悉CDN系统,对常见的CDN调度模式熟练掌握、掌握HTTP基本知识; 3.熟练的英语能力,能够用英语同运营商进行故障申报、问题讨论、方案沟通;

1、负责建设边缘云的持续运维能力; • 事前:建立并持续优化系统运维的预警机制,进行稳定性风险的分析与管控,前置梳理风险漏洞,降低风险/故障的发生率; • 事中:建立并持续优化系统运维的监控机制,快速发现、通报、定位及处理疑难故障; • 事后:针对疑难故障,能够快速分析、诊断、定位问题,协同开发人员解决问题;建立健全快速恢复服务机制,降低业务受损程度,确保产品、业务稳定运行;牵头问题复盘工作,通过架构优化等根治引起不可用的问题。 2、智能化/自动化运营能力建设 • 负责智能化/自动化的运维场工具能力落地开发,编写自动化运维脚本,帮助解决生产系统遇到的容量、性能、稳定性等问题,推进网络自动化运维能力建设; • 负责精细化数据运营,通过对日常运维指标、问题、风险进行分析和研究,建立模型、计算ROI/TCO解决问题,跟踪改进优化措施落地,保证可持续运营; • 负责高可用保障体系建设,如故障自动定位、自动恢复、自适应容灾、云原生技术实施及落地等,保障业务持续可用。 3、负责维护海内外的边缘云基础设施网络; • 全球全球骨干网、城域网、数据中心网络、光网络巡检维护以及故障定位和恢复 • 全球互联网稳定性和质量运营,负责互联网终端用户、云厂商到阿里云互联互通质量相关的售前、售后的技术服务支持和以及质量优化所需改造优化工作 • 全球网络运营风险管理,负责网络生命周期的风险识别、规避控制和消除,涉及架构引入测试、验收、风险防范,确保网络服务满足稳定性需求。 • 互联链路质量运营,负责网络设备光模块/AOC/DAC线缆的产品引入、质量控制、线上运营、链路故障维修支持和能力建设。 4、运营架构落地&质量优化体系建设 • 网络运维高可用标准制定、研发测试、准入测试,包括新架构引入、架构HLD、LLD讨论、运营标准制定、研发测试、准入测试。 • 制定与优化本领域内的相关新产品\新功能的的SLA协议承诺,并基于SLA要求,评审新产品\新功能的架构是否可用、安全; • 积累网络运维最佳实践,输出运维技术文档、知识库建设等。 5、基础网络运营生命周期优化保障 • 全球网络资源建设、标准化服务开通,自动化交付能力建设&优化&提效,确保高质量网络资源交付履约;保证业务增长需求; • 全球网络变更方案全生命周期自动化体系架构设计、技术演进改造变更实施相关业务流程、风控策略制定并落地,优化工程方案制定及自动化能力开发,完成变更方案业务逻辑在自动化体系中的编排、落地、维护,并负责变更场景常态化运营前的测试、灰度,以及变更执行和过程中的异常处理; • 全球网络裁撤体系流程设计、方案制定,自动化落地;对接、协调其它专业团队完成网络裁撤前的准备,并负责裁撤变更执行的跟踪,处理变更执行过程中的异常,保证网络资源安全高效下线。 加分项 1.有传输系统维护经验,熟悉常见的传输组网模式、备份模式;能够对传输常见问题熟练应对; 2.熟悉CDN系统,对常见的CDN调度模式熟练掌握、掌握HTTP基本知识; 3.熟练的英语能力,能够用英语同运营商进行故障申报、问题讨论、方案沟通;
【业务介绍】 我们是小红书内稠密类模型(LLM/MLLM/SD/CV/NLP)统一的AI平台QuickSilver,负责调度公司内所有稠密类模型训练与推理资源,基于自建的训推引擎,为公司所有AI算法同学迭代业务模型提供端到端一站式AI服务;包括数据管理,模型管理,模型训练、压缩、推理、部署,服务管理,资源调度等一系列能力。 工作职责: 1、负责稠密类模型训练推理开发平台的架构设计和核心功能研发 2、设计和实现大模型训练部署流程,包括模型fine-tuning、推理服务化等 3、构建云原生架构,设计高可用、高性能的微服务体系 4、优化平台性能,提升系统稳定性和可扩展性