阿里云阿里云智能-网络运维专家-边缘云-杭州/北京
任职要求
基本要求: • 5年以上大型数据中心网络或虚拟化网络设计、建设和运维经验 • 1年及以上的运维自动化系统开发、网络架构设计经验 • 研发项目管理经验 • 对本领域(核心网、城域网、光网络、数据中心网络、互联网)的技术趋势和演进有持续的跟踪与了解 • 基本掌握网络架构设计、性能优化、稳定性优化等领域的专业能力 • 具备一定的业务线影响力和公信力,能够影响和协同跨团队的资源 • 精通系统级需求,对所负责运维的产品/系统有较深刻的理解,持续发现并分析当下问题,提出解决方案并推动落地拿到结果(独立应对XX%及以上的疑难故障问题) • 具备复杂项目管理能力,能够从技术、运营、风险、ROI等多方面进行分析,并提出切实解决方案 • 单产品研发安全生产执行者 • 能够在单产品/中型复杂系统层面推动建立完善的研发安全生产体系,并推动落地,保障相关产品/技术/系统的可容灾、可观测、可处置、可运维、可快恢 • 熟练掌握业内主流的研发安全生产技术体系 • 具有产品级、中型复杂系…
工作职责
1、负责建设边缘云的持续运维能力; • 事前:建立并持续优化系统运维的预警机制,进行稳定性风险的分析与管控,前置梳理风险漏洞,降低风险/故障的发生率; • 事中:建立并持续优化系统运维的监控机制,快速发现、通报、定位及处理疑难故障; • 事后:针对疑难故障,能够快速分析、诊断、定位问题,协同开发人员解决问题;建立健全快速恢复服务机制,降低业务受损程度,确保产品、业务稳定运行;牵头问题复盘工作,通过架构优化等根治引起不可用的问题。 2、智能化/自动化运营能力建设 • 负责智能化/自动化的运维场工具能力落地开发,编写自动化运维脚本,帮助解决生产系统遇到的容量、性能、稳定性等问题,推进网络自动化运维能力建设; • 负责精细化数据运营,通过对日常运维指标、问题、风险进行分析和研究,建立模型、计算ROI/TCO解决问题,跟踪改进优化措施落地,保证可持续运营; • 负责高可用保障体系建设,如故障自动定位、自动恢复、自适应容灾、云原生技术实施及落地等,保障业务持续可用。 3、负责维护海内外的边缘云基础设施网络; • 全球全球骨干网、城域网、数据中心网络、光网络巡检维护以及故障定位和恢复 • 全球互联网稳定性和质量运营,负责互联网终端用户、云厂商到阿里云互联互通质量相关的售前、售后的技术服务支持和以及质量优化所需改造优化工作 • 全球网络运营风险管理,负责网络生命周期的风险识别、规避控制和消除,涉及架构引入测试、验收、风险防范,确保网络服务满足稳定性需求。 • 互联链路质量运营,负责网络设备光模块/AOC/DAC线缆的产品引入、质量控制、线上运营、链路故障维修支持和能力建设。 4、运营架构落地&质量优化体系建设 • 网络运维高可用标准制定、研发测试、准入测试,包括新架构引入、架构HLD、LLD讨论、运营标准制定、研发测试、准入测试。 • 制定与优化本领域内的相关新产品\新功能的的SLA协议承诺,并基于SLA要求,评审新产品\新功能的架构是否可用、安全; • 积累网络运维最佳实践,输出运维技术文档、知识库建设等。 5、基础网络运营生命周期优化保障 • 全球网络资源建设、标准化服务开通,自动化交付能力建设&优化&提效,确保高质量网络资源交付履约;保证业务增长需求; • 全球网络变更方案全生命周期自动化体系架构设计、技术演进改造变更实施相关业务流程、风控策略制定并落地,优化工程方案制定及自动化能力开发,完成变更方案业务逻辑在自动化体系中的编排、落地、维护,并负责变更场景常态化运营前的测试、灰度,以及变更执行和过程中的异常处理; • 全球网络裁撤体系流程设计、方案制定,自动化落地;对接、协调其它专业团队完成网络裁撤前的准备,并负责裁撤变更执行的跟踪,处理变更执行过程中的异常,保证网络资源安全高效下线。 加分项 1.有传输系统维护经验,熟悉常见的传输组网模式、备份模式;能够对传输常见问题熟练应对; 2.熟悉CDN系统,对常见的CDN调度模式熟练掌握、掌握HTTP基本知识; 3.熟练的英语能力,能够用英语同运营商进行故障申报、问题讨论、方案沟通;
1、市场空间和需求洞察:负责边缘云及边缘网络产品的市场空间调研、客户画像、竞品分析、应用场景和商业模式分析; 2、产品需求管理和设计:负责边缘云及边缘网络产品的需求规划和拆解,并深度参与产品实现方案设计,包括但不限于产品控制台、后台运维运营及监控系统等用户界面系统,以及计算、网络、存储、AI推理、专线上云、云边端组网等后端功能类别,数据库、安全等跨产品合作解决方案,对产品用户体验和竞争力负责; 3、产品定价和商业模式设计:设计并实现边缘云及边缘网络基础产品的商业化方案和定价,确保产品定价策略与市场竞争形式相匹配,产品商业模式可满足客户实际业务需求; 4、产品成本模型优化:了解产品全生命周期的每一项成本构成、影响因素及使用情况,不断推动研发和供应链,通过架构升级和技术突破等手段,优化产品成本结构、降低产品运营成本; 5、跨团队协同:与BTE、SA、PDSA/运营、研发、测试、BI、运维、供应链等多方角色协同工作,做好项目管理工作,确保产品业务目标有序达成,产品路标和重点需求如期发布,产品端到端交付效率持续提升; 6、流程机制设计:负责产品全生命周期持续迭代优化,通过合理的流程机制设计,发现并解决关键瓶颈和卡点,持续提升产品开发和运营效率。
1. 底层网络架构与虚拟化研发:负责网络产品的核心架构设计与技术落地,深耕网络底层虚拟化与网络控制系统。要求能够根据业务需求进行技术选型与可行性分析,构建高可用、高扩展的底层底座,确保网络基础设施的稳健运行。 2. 传输协议算法创新与定制化:负责传输协议(TCP/UDP/QUIC等)机制的优化与创新。针对CDN等多元业务场景,设计并实现差异化的拥塞控制与传输算法,达成“千人千面”的网络优化目标,建立业务传输的技术壁垒。 3. 网络AI智能化与自动化运营:推动AI技术在网络域的深度落地。利用机器学习与大数据分析,实现网络故障的自动化诊断、根因分析及传输性能瓶颈定位,将传统被动运维转化为主动预警与智能决策。 4. 全生命周期工程卓越与稳定性保障:负责从需求拆解、核心代码编写到部署运维的全流程。持续进行系统重构与性能调优,通过值班、Bug排查及压测等手段解决线上疑难杂症,确保大规模分布式系统在复杂环境下的稳定性与资源成本最优。 5. 技术规划与业务前瞻视野:理解业务战略,基于业务痛点进行前瞻性技术预研。参与制定中长期技术规划,确保架构设计能够支撑业务的爆发式增长,并能将最新的行业趋势转化为业务竞争力。

团队介绍 我们致力于通过云原生技术和不断的技术创新突破, 帮助我们的业务提升研发和运维效率,在业务高速发展的阶段,让研发把更多的精力放在创造业务价值上去。 团队贴近得物丰富的业务场景, 通过云原生CI/CD, 云原生AI, 在离线混部,边缘部署, 多云管理, 集群管理等为得物技术带来了成本的降低和效率的提升。 岗位职责: 1. 负责混部管理系统的开发, 包括调度能力强化, 内核资源隔离, 内核能力增强, 及相关的稳定性组件建设 2. 负责弹性容量体系的开发, 包括HPA&VPA, 水位平衡,容量预估等功能 3. 负责k8s相关组件的开发, 包括网络组件, 存储组件及容器运行时
职位简介:负责公司网关系统的设计、开发与优化,确保网关在高并发、复杂业务场景下的稳定高效运行,推动网关技术的创新与升级。 岗位职责: -主导公司网关系统的架构设计,包括但不限于流量管理、安全防护、服务路由等核心模块的设计与实现,满足业务快速发展的需求。 -开发高性能、高可用的网关核心功能,如请求转发、负载均衡、限流降级等,提升系统的整体性能和稳定性。 -针对不同业务场景,优化网关的性能和资源利用率,研究并应用新的技术和算法,提高网关的处理能力和响应速度。 -与其他部门(如后端开发、安全团队、运维团队等)协同工作,共同解决复杂的技术问题,确保系统之间的无缝对接和数据安全。 -跟踪网关技术的最新发展趋势,引入并评估新技术,推动公司网关系统的技术升级和创新。 -负责网关系统的性能监控与故障诊断,及时发现并解决系统中存在的问题,保障系统的持续稳定运行。 -编写高质量的代码和技术文档,为团队成员提供技术支持和指导,提升团队整体技术水平。