阿里云阿里云智能-弹性计算高级技术专家-北京/杭州
任职要求
1. 8年以上IT、互联网、云计算或大规模数据平台研发工作经验,对互联网业务开发、架构设计有体系化的深入理解。面对技术领域的不确定性,具备优秀的技术判断力和决策能力; 2. 能够主导设计并推动落地高并发、高可用、高伸缩、低成本、高数据一致性/可靠性的系统架构。精通数据密集型系统架构,具备设计、构建和优化超大规模数据平台、数据管道及数据服务的成功经验。能够快速定位并解决跨领域、跨系统的复杂技术难题,具备强大的技术攻坚能力。具备技术前瞻性,能预见数据技术发展趋势及其对业务架构的影响; 3. 深入理解业务逻辑、数据流与价值链条,能够通过业务建模和领域驱动设计将复杂业务需求转化为高效、可扩展的技术架构。基于技术长期发展和业务战略目标,从全局视角出发,平衡业务需求、技术可行性与数据治理要求; 4. 深入理解数据资产(元数据、数据质量、数据安全)的重要性,并能在系统设计中有效落地相关实践,有数据资产化,并赋能数据分析、AI应用落地的经验者优先; 6. 对云计算、大数据、AI等前沿技术保持高度热情和敏锐度,具备极强的快速学习能力。能够将新兴数据技术趋势转化为切实可行的业务解决方案。优秀的沟通表达、技术影响力和跨团队协作能力,能够有效驱动跨职能合作。
工作职责
负责核心业务领域的整体技术架构设计、关键技术创新与落地,驱动技术战略与业务目标的深度结合。需要具备卓越的系统架构能力、深刻的业务洞察力、前瞻性的技术视野以及领导复杂技术项目的能力,能够解决重大技术难题,并引领技术团队提升整体效能。具体包括: 1、技术方案设计 · 收集、识别、分析客户需求,深入理解业务本质,进行领域建模和业务抽象,确保技术方案精准支撑业务目标与发展; · 基于需求分析和业务建模,进行技术可行性分析和方案评审,选择合适的技术选型、功能设计、技术架构、设计并决策高扩展性、高可靠、面向未来的数据架构和开发流程等。 2、技术实现 · 基于技术方案的拆解,按照任务目标和产出规范,完成任务/子任务的设计、编码开发和系统功能实现; · 负责核心功能的架构与代码模板的编写,开发与维护系统公用核心模块,技术架构重构、优化等; · 主导或指导复杂数据平台、数据管道、数据服务的设计、研发与优化,确保数据链路的高效、稳定、可扩展,并能有效支持数据分析、决策和智能化应用。 3、稳定性和性能优化 · 制定稳定性策略,寻找并解决产品系统中的潜在风险和瓶颈,覆盖线上疑难杂症问题,确保系统的安全可靠; · 探索产品优化技术和方法,进行性能优化,提高产品稳定性和性能。 4、技术预研 · 跟踪和了解产品技术和趋势,根据业务需要提供技术支持和建议,评估新技术在业务场景的落地可行性及价值。 5、技术规划 · 基于业务需求和技术趋势,主导制定并推动落地支撑业务长期发展的技术架构,确保其具备高可用、高可靠、高拓展性,并能有效沉淀数据资产、驱动业务持续改进。
业务支撑 • 负责资源交付平台架构设计与业务建模,服务阿里云全球范围内资源分配和交付需求,提升客户的资源满足度; • 负责ECS资源经营平台建设,持续提升平台架构和模型的技术先进性,提升阿里云资源运营效率; • 基于数据驱动,洞察和分析资源使用效率,持续提升资源利用率; • 持续演进平台和系统领域模型,提升整体业务的技术先进性。 技术方案设计 • 收集、识别、分析内外部客户需求,并确定技术方案的目标、范围和交付成果; • 基于需求分析,进行技术可行性分析和方案评审,选择合适的技术选型、功能设计、技术架构、数据架构和开发流程等。 技术实现 • 基于技术方案的拆解,按照任务目标和产出规范,完成任务/子任务的设计、编码开发和系统功能实现; • 负责核心功能的架构与代码模板的编写,开发与维护系统公用核心模块,技术架构重构、优化等; • 基于良好的代码编写规范和架构设计,完善运维保障机制,并针对系统瓶颈进行技术优化。 稳定性和性能优化 • 解决产品系统中的潜在风险和瓶颈,覆盖线上疑难杂症问题,确保系统稳定安全可靠地运行; • 运用产品优化技术和方法,进行性能优化,提高产品稳定性和性能。 技术预研 • 跟踪和了解新的产品技术和趋势,根据业务需要提供新的技术支持和建议。 技术规划 • 理解业务战略及重点,基于业务需求作出高可用、高可靠、高拓展性的技术架构规划和落地。
1. 针对ECS异常调度“运维决策大脑”,设计多维的异常调度可验证体系,通过融合存储、心跳、网络状态等多路信号,从根本上解决因单一信号误判导致的业务中断风险,确保自动化决策的精准性; 2. 针对ECS海量线上数据和全链路性能问题,设计和开发创新的测试解决方案与平台,建立精准、高效的性能和稳定性度量体系; 3. 面向失败的可验证性设计,验证系统的韧性架构,尤其针对规模性故障(机房、核心系统依赖),推动核心组件的降级、熔断、故障恢复能力,通过故障注入等方式验证系统的鲁棒性; 4. 作为产品线研发安全生产的构建者,负责在多产品/复杂系统层面构建并落地完善的研发安全生产规范和流程,保障系统的可容灾、可观测、可处置、可运维、可快速恢复; 5. 主导跨产品、大型复杂系统的质量保障工作,组织和推动高水准的稳定性演练(如容灾、红蓝对抗),培养团队的研发安全生产意识和专业能力; 6. 对AIOps/SRE及质量保障领域的技术发展趋势有前瞻性判断,负责测试技术预研、技术难点攻关,推动技术变革与创新,为产品线带来显著收益。
我们正在寻找一位充满激情、经验丰富的高级技术专家,加入我们的创新团队,共同面对并解决在Serverless GPU和AI应用平台领域中的挑战性问题。 1.负责Serverless计算及AI应用托管平台的架构设计与持续优化。包括异步事件处理、GPU资源调度与弹性伸缩,AI 应用和模型托管等核心功能的设计。保障系统的高可用性、可扩展性和安全性。 2.理解业务战略及重点,并进行相应的技术架构规划并推动落地。能够为开发团队提供专业的技术指导和支持。推动分布式系统、AI应用托管等领域的知识共享和技术创新。 3.深入分析系统性能瓶颈,实施有效的优化策略,提高系统响应速度和资源使用效率。 4.加强与产品、开发、运维等部门的合作,确保技术方案的有效实施,克服项目推进中的各种障碍。 5.为关键客户提供技术支持,针对使用Serverless平台过程中出现的难题给予及时有效的解决方案,维护良好的产品体验。
产品规划 •负责阿里云ECS实例产品生命周期和发展路线、商业化策略规划,判断产品需求优先级,制定产品路标。 •通过市场分析,洞察市场机会和技术发展趋势、市场容量和竞争格局,定义细分市场。 •通过竞对分析及,识别产品、架构、技术和价格等方面优劣势,制定竞争策略。 •通过调研,洞察用户和客户场景需求,制定产品方案。 产品设计 •理解和抽象客户需求,分析客户场景,负责产品定义、功能和用户体验设计,输出PRD。 •协调研发团队完成产品的开发和测试,完成产品功能上线。 •基于对产品价值和成本的理解,参与价格策略制定和产品定价建议。 产品经营支持 •制定业务拓展策略,制定关键GTM指标,和PdSA共同制定拓展计划,跟踪产品市场表现和竞品情况,通过数据化经营分析提出产品经营改进建议。 •制定生态发展规划,结合产品力、产品优势场景及伙伴能力图谱,为产品设计基于生态的规模化增长及生态各参与者的健康发展策略。 产品上市 •制定产品上架策略,实现产品上架。 •主导产品GTM材料编写,协助PdSA完成赋能、参与产品营销推广。 •标杆建设,负责新产品、新能力的新客户建设,沉淀为可复制材料。 •产品商机挖掘,负责产品的目标市场分析,商机盘点,输出情报。 产品持续改进 •关注客户对产品的使用,合理安排产品需求优先级,推动产品改进、新产品或功能孵化,提升产品易用性,优化产品稳定性、安全性、性能和成本。