阿里云阿里云智能-云网络智能运维研发专家-AI领域-杭州
任职要求
1. 5年以上IT、互联网、云计算行业运维开发工作经验; 2. 熟悉Java、Golang、python等主流开发语言,有运维自动化系统开发经验者从优; 3. 对云计算业务运维保障管理有丰富的实战经验,如复杂业务场景下的流程优化和过程改进、系统的高可用性架构实现、组织的稳定性意识提升等; 4. 善…
工作职责
1. 参与运维可观测链路建设: 1.1 建立并持续优化产品运维的监控机制,研发并维护相应的运维监控平台/工具; 1.2 建立并持续优化产品运维的预警机制,确保故障能够被快速发现、通报、定位及处理; 1.3 建立快速分析、诊断、定位问题能力,并能够协同开发人员分析解决问题。 2. 参与运维可自愈链路建设: 2.1 建立健全快速恢复服务机制,降低业务受损程度,确保产品、业务稳定运行; 2.2 建立故障注入机制,模拟生产故障场景,验证产品稳定性水位,提前发现系统能力短板。 3. 运维自动化体系建设: 3.1 建设本领域相关的运维体系,如变更标准、重保体系、客情预警等,确保本领域产品运维&稳定性能力提升; 3.2 建设稳定性能力的数据化体系,通过数据驱动方式持续治理稳定性风险; 3.3 建设网络质量自动化探测评估体系,并结合观测链路和自愈链路,自动化隔离网络抖动带来的服务影响。
1、技术前瞻与需求洞察:跟踪云计算与网络领域的前沿技术趋势,重点研究 AI/ML 工作负载(如大模型训练与推理)对高性能网络的新需求,提炼产品创新方向; 2、竞品与市场分析:持续关注主流云厂商在网络虚拟化、高性能网络、AI 推理网关等方向的产品演进,输出竞品分析与市场洞察,支持产品演进,驱动产品差异化与战略决策; 3、产品全生命周期管理:负责核心云网络产品(如 VPC、EIP、SLB、云企业网等)的功能规划、需求分析、产品设计及商业化运营,推动产品规模增长; 4、端到端解决方案设计:面向用户多样化的业务场景,设计端到端的云网络解决方案,综合平衡性能、延迟、弹性、安全与成本等关键维度; 5、跨职能协同落地:联动网络架构、研发、运维、售前等团队,高效推进产品从规划、开发到上线的全流程,确保高质量交付与用户体验; 6、产品运营与持续迭代:负责产品上线后的运营,包括用户培训、客户交流、市场活动支持、反馈闭环机制建设,并基于数据驱动实现产品的持续优化与体验升级。
1. 存储和 AI infra 研发,开发和调优高性能通信框架,包括多线程任务调度、零拷贝内存管理、多协议自适应 RPC 等,聚焦云存储(EBS/OSS/DFS/CPFS)与 AI 智算场景的网络基础设施,主导下一代高效稳定的存储网络技术体系构建。 2. 主导 DPDK 和 RDMA 技术栈的深度优化和落地,在不同业务的不同网卡&交换机环境中,进行网络库的适配、集成、性能调优,突破单机业务吞吐瓶颈,降低平均和长尾延迟。 3. 开发基于 BF3 的智算网络加速方案,实现高带宽低延迟大规模 AI 数据流处理。 4. 参与建设网络框架监控、智能运维体系,在保障网络高性能的同时,兼顾可控、可靠、可视化。
1.负责广域网转发面或控制面的研发工作,包括软硬件结合、虚拟化、控制器等网络技术; 2.负责广域网大规模可编程集群和专线接入设备的稳定性架构与开发; 3.负责广域网专线/长传资源的精细化运营、交付、管理,支撑AI的大规模数据传输与训练。