理想汽车【企业智能】SRE工程师
任职要求
1. 计算机科学、软件工程、人工智能等相关专业本科及以上学历; 2. 云原生与平台工程相关技术栈,理解云原生理念:容器与调度、微服务与服务治理和DevOps工具链等; 3. 工程开发与系统设计能力,熟悉微服务架构设计、分布式系统设计原则; 4. 机器学习与深度学习框架,熟悉常用的机器学习与深度学习框架,了解模型训练、评估、微调、部…
工作职责
1. 负责系统可靠性工具和平台建设; 2. 负责系统可靠性平台的Agent设计、开发和优化 3. 负责智能基建核心基础平台的可靠性建设和运维。
部门介绍:云智能集团承载着阿里巴巴集团在高科技领域的核心技术和业务创新,致力于构建数字经济时代的企业级云计算服务平台,并且在全球范围内提供领先的技术解决方案和服务,具备超大业务规模以及最复杂的企业级云计算服务。 云智能集团SRE团队的使命是保障云智能集团生产环境的稳定性以及企业级云计算数据可靠性,服务连续性。如何保障云上客户的业务连续运行以及不止于99.99%的可用性,是我们面临的巨大挑战。 云智能集团SRE团队的目标是建立技术和管理结合的体系化稳定性保障体系,包括但不局限于: 1.制定稳定性规范和度量,如涵盖健壮性架构、研发质量、发布变更、生产环境运行管理等方面,把稳定性贯彻到阿里云技术研发体系 2.推动开展稳定性架构治理重大战役,如全栈容灾,变更灰度,应急1-5-10,资损防控等战役,将稳定性风险快速持续收敛 3.构建稳定性技术中台,无人值守变更,红蓝攻防,应急协同,风险隐患巡检,监控发现等方面建设平台化能力,让稳定性工程更简单 4.应急处置生产环境故障,应急响应,处置协同,故障定位,故障恢复,故障复盘改进 5.通过技术和服务全方位保障客户业务的大型活动稳定性保障,如淘天集团双11,亚运会、奥运会以及客户业务关键期保障 6.该职位涉及值班响应的职责,在服务级别协议(SLA)时间内做出对客响应,推动客户问题的解决,改善客户体验 岗位职责: 1、技术洞察和问题定义 •洞察领域发展方向,熟悉技术标准和前沿进展,跟踪关键竞对的技术和方法。 •结合产品现状提出待解决的问题,理解业务目标并分解到技术产品待解决问题中。 2、架构规划 •对所在领域业务进行架构抽象,建立整体业务领域模型。 •制定系统整体架构规划和技术路线图,确定系统目标和方向,综合考虑应用架构、数据架构、关键技术选型、部署架构等多方面因素,确保系统整体质量。 3、架构设计 •设计架构方案,包括系统组件、模块间的关系、接口、数据流和数据结构、基础设施等,保障系统的安全性、稳定性、易扩展、易维护和性能。 •把握业务全链路技术方案设计,确保技术可实现性、易用性,无重大风险。 •拆解工作,把复杂目标拆成一系列可以落到具体团队或个人的工作。 4、架构落地 •识别优先级、明确目标步骤和应急方案,保障架构实施落地和用户体验。 •梳理关键技术难点,指导开发团队进行突破和攻关,对开发过程进行监督和管理。 •负责部分核心代码编写,虚实结合,做好架构管理。 5、架构治理和演进 •制定架构的原则、规范与治理机制,并且落实到具体的项目研发中。 •负责架构管控,参与领域的重大架构决策,管控架构变更。 •识别不合理业务和架构设计,定期评估架构成熟度。 •基于业务需求和技术演进目标,指导开发团队对系统进行优化和扩展、解决技术债务,推动架构持续演进。 6、技术沉淀和赋能 •团队技术架构分享、技术文档和架构规范沉淀、学习引入新技术,赋能开发团队的技术成长,做好知识传承。
1、制定所负责业务的风险&效能&成本架构演进规划,协同&推动全局架构演进,以及前瞻性的设计规划,包括内部各子域的业务架构、数据架构、信息架构、技术架构,支撑各子域间高质量高效率协同,提升业务交付效率和运营效率; 2、识别负责业务的风险&效能&成本问题,制定相应的解决方案,并协同方案落地,最终取得业务结果; 3、制定所负责域的智能化规划,运用好平台已有的数据智能能力,对于团队工作问题提出针对性的数据智能的解决方案,改进工作效率和质量; 4、识别风险&效能&成本系统建设和运营过程中影响团队效率的其他问题,制定标准化、流程化、系统化、产品化等改进计划。
1. 面向业务构建连续性策略,为集团内部及外部客户提供行业绝对领先的可靠性技术服务。围绕业务持续安全、可用目标,构建多端智能预警、根因定位、动线分析、资金安全保障、自愈、降级、限流、智能运维能力,协同&推动全局架构演进,进行前瞻性的设计与规划,为全集团业务持续稳定运行负责; 2. 面向全站基础架构,构建站点容灾、建站、弹性等全局技术架构,保障各站点稳定运行,提升业务可用率; 3. 识别业务发展过程中的效能&成本问题,结合AI与智能化技术,进行工程效率提升,降低流量成本与算力成本,改进工程交付效率与质量; 4. 围绕各业务大促活动,提供高性能、高可用、资金安全的常态活动保障方案,构建灵活弹性的容量调度策略,为各头部电商平台提供峰值秒杀技术能力与容量服务;
1、制定所负责业务的风险&效能&成本架构演进规划,协同&推动全局架构演进,以及前瞻性的设计规划,包括内部各子域的业务架构、数据架构、信息架构、技术架构,支撑各子域间高质量高效率协同,提升业务交付效率和运营效率; 2、识别负责业务的风险&效能&成本问题,制定相应的解决方案,并协同方案落地,最终取得业务结果; 3、制定所负责域的智能化规划,运用好平台已有的数据智能能力,对于团队工作问题提出针对性的数据智能的解决方案,改进工作效率和质量; 4、识别风险&效能&成本系统建设和运营过程中影响团队效率的其他问题,制定标准化、流程化、系统化、产品化等改进计划。