阿里云阿里云智能-云管理平台产品专家-北京/杭州
任职要求
1、深刻理解云资源迁移、云资源管理以及云服务运营的业务场景和相关方法论,并有AI领域相关经验。 2、具备优秀的团队合作精神,良好的沟通和横向推进能力。 3、具有产品化的…
工作职责
1、负责AI+云管理平台的产品定义,功能设计及商业化落地,具备包括通过AI技术赋能从云资源迁移上云,到云上资源管理、以及云服务运营等功能。 2、负责产品规划以及市场策略规划,以业务成功为导向,协同研发,售前架构师,市场运营,产品文档等多角色共同达成业务目标。 3、负责产品核心竞争力构建落地,基于AI技术打造端到端的业务上云,智能化的云资源管理,以及原生混合云服务运营能力。 4、负责产品市场影响力建设,从迁移上云到云上管理,以及云上运营,全流程的产品实践沉淀。
1、参与AI管理平台的产品功能规划、设计与研发,实现AI资源、资产管理以及提供AI训练、推理服务; 2、关注AI前沿发展,面向AI开发流程,设计从模型到异构算力的灵活调度和极致效率,打造“云+AI”的云原生AI PaaS平台; 3、面向大规模、分布式的智算场景,实现数据加速、训练弹性、模型推理优化、模型部署优化等平台能力。
1. 针对ECS异常调度“运维决策大脑”,设计多维的异常调度可验证体系,通过融合存储、心跳、网络状态等多路信号,从根本上解决因单一信号误判导致的业务中断风险,确保自动化决策的精准性; 2. 针对ECS海量线上数据和全链路性能问题,设计和开发创新的测试解决方案与平台,建立精准、高效的性能和稳定性度量体系; 3. 面向失败的可验证性设计,验证系统的韧性架构,尤其针对规模性故障(机房、核心系统依赖),推动核心组件的降级、熔断、故障恢复能力,通过故障注入等方式验证系统的鲁棒性; 4. 作为产品线研发安全生产的构建者,负责在多产品/复杂系统层面构建并落地完善的研发安全生产规范和流程,保障系统的可容灾、可观测、可处置、可运维、可快速恢复; 5. 主导跨产品、大型复杂系统的质量保障工作,组织和推动高水准的稳定性演练(如容灾、红蓝对抗),培养团队的研发安全生产意识和专业能力; 6. 对AIOps/SRE及质量保障领域的技术发展趋势有前瞻性判断,负责测试技术预研、技术难点攻关,推动技术变革与创新,为产品线带来显著收益。
阿里专有云应用运维与可观测团队,为专有云客户提供极致用云的解决方案与产品矩阵,帮助企业更好地管理IT服务和基础设施,提高运维效率、运维安全性以及业务连续性 岗位职责: 1、 参与并负责云+应用一体化运维平台的设计与实现,包括应用蓝图、自动化发布、应用容灾、资源编排等能力 2、参与并负责全景监控的设计与实现,围绕健康画像构建监管控一体化AIOPS运维平台,实现故障的快速发现、智能定位以及高效恢复链路闭环 3、参与并负责专有云日志服务SLS的设计与实现,为Log、Metric、Trace等可观测数据提供一站式采集、加工、查询与分析、可视化与告警、消费与投递等能力 4、参与并负责专有云应用市场的设计与实现,基于开发者中心与交付中心打造专有云产品生态体系 5、参与并负责专有云统一CMDB、流程引擎、终态引擎、监控采集和计算等基础技术的设计与实现
1、技术方案设计 • 收集、识别、分析平台设计目标及管理需求,围绕资源管理平台确定相应技术方案的目标、范围和交付成果; • 基于需求分析,进行技术可行性分析和方案评审,结合当前的技术架构进行合适的技术选型、功能设计、技术架构、数据架构和开发流程等。 2、技术实现 • 基于技术方案的拆解,按照任务目标和产出规范,完成任务/子任务的设计、编码开发和系统功能实现; • 负责核心功能的架构与代码模板的编写,开发与维护资源管理平台核心业务模块,优化程序性能等; • 对编码进行阶段性的讨论和CodeReview,并通过调试优化,推动代码成功部署; • 对开发中和部署后的程序进行必要的维护和迭代,包括值班oncall、bug排查、问题诊断、产品体验改善、性能和成本优化等; • 编写技术文档,如操作手册、故障排除指南、API文档等,以支持日常答疑运维工作。 3、安全、稳定、效率和性能优化 • 运用产品优化技术和方法,实现安全保障和优化系统性能,提高平台系统安全性及客户使用体验。 4、技术预研 • 跟踪和了解国内外资源管理平台技术发展和趋势,结合业务实际需要提供有效的技术支持和架构建议。 5、技术规划 • 理解业务重点,基于业务需求作出高可用、高可靠、高拓展性的技术架构规划和落地。