logo of aliyun

阿里云阿里云智能-管控系统研发专家-北京/杭州

社招全职5年以上云智能集团地点:北京 | 杭州状态:招聘

任职要求


5年以上IT、互联网、云计算开发、运维相关工作经验;
• 精通Java语言和Spring等基础框架,有使用Java语言进行后端系统开发的经验,熟悉Python脚本语言;
• 熟练掌握分布式系统设计的基本原理和最佳实践,熟悉RPC框架、缓存、消息系统等的技术原理并有相关的使用经验;
• 熟练掌握Mysql等关系型数据库的原理和使用,有数据库性能优化经验;
• 熟悉Linux操作系统常见命令,熟悉Shell脚本编程技术;
• 了解常见Web攻击方式,熟悉基本的计算机网络原理;
• 具备良好的代码质量意识,熟悉单元测试和自动化接口测试;
• 具备对所负责研发模块进行快速上线、快速响应和应急处理的能力;
• 能够独立的进行模块、子系统或子领域的复杂度治理工作和跨1-2个技术栈的方案设计工作;
• 在架构设计中能够梳理明确模块的增删改,并据此分解开发工作项和相互依赖,考虑技术投入产出比(ROI)、性能优化;
• 具有较好的总结归纳能力,乐于分享,过往有通用组件或者模块研发和维护经验者优先;
• 具备复杂项目的管理能力和跨团队的协作能力,有项目负责人或者研发团队接口人经验者优先;
• 具有出色的抽象设计能力,善于思考,思路清晰,能独立分析和解决问题,能够主导并驱动完整的技术项目者优先。

加分项:
• 熟悉阿里云产品,有云计算产品管控系统开发经验和阿里云OpenAPI使用经验;
• 拥有自己内容充实的技术类文章/博客/公众号等。

工作职责


1、技术方案设计
• 参与云产品管控系统的架构升级和优化工作,根据管控系统的稳定性、性能、安全等目标设计相应的技术方案,并明确方案目标、范围和交付成果;
• 基于需求进行技术可行性分析和方案评审,结合当前的技术架构进行合适的技术选型和功能设计。完成技术架构和数据架构设计,并推进开发流程。

2、技术实现
• 基于技术方案的拆解,按照任务目标和产出规范,完成任务/子任务的设计、编码开发和系统功能实现;
• 负责核心功能的架构与代码模板的编写,开发与维护管控系统核心业务模块,优化程序性能等;
• 对编码进行阶段性的讨论和CodeReview,并通过调试优化,推动代码成功部署;
• 对开发中和部署后的程序进行必要的维护和迭代,包括值班oncall、bug排查、问题诊断、产品体验改善、性能和成本优化等;
• 编写技术文档,如操作手册、故障排除指南、API文档等,以支持日常答疑运维工作。

3、安全、稳定、效率和性能优化
• 通过数据分析,稳定性研究和性能测试,持续推动升级和优化云产品管控架构,实现高可用、高性能的管控系统;
• 运用产品优化技术和方法,实现安全保障和优化系统性能,提高阿里云产品管控安全性,同时帮助客户提效,给客户更好的体验。

4、技术预研
• 跟踪和了解国内外云计算技术和分布式计算技术的发展和趋势,结合业务实际需要提供有效的技术支持和架构建议。

5、技术规划
• 理解业务重点,基于业务需求作出高可用、高可靠、高拓展性的技术架构规划和落地。
包括英文材料
Java+
Spring+
Python+
脚本+
分布式系统+
RPC+
缓存+
MySQL+
Linux+
Bash+
Web+
系统设计+
OpenAPI+
相关职位

logo of aliyun
社招5年以上云智能集团

1、技术方案设计 • 参与云产品管控系统的架构升级和优化工作,根据管控系统的稳定性、性能、安全等目标设计相应的技术方案,并明确方案目标、范围和交付成果; • 基于需求进行技术可行性分析和方案评审,结合当前的技术架构进行合适的技术选型和功能设计。完成技术架构和数据架构设计,并推进开发流程。 2、技术实现 • 基于技术方案的拆解,按照任务目标和产出规范,完成任务/子任务的设计、编码开发和系统功能实现; • 对编码进行阶段性的讨论和CodeReview,完成功能测试和性能测试,推动代码成功部署; • 对开发中和部署后的程序进行必要的维护和迭代,包括值班oncall、bug排查、问题诊断、产品体验改善、性能和成本优化等; • 编写技术文档,如操作手册、故障排除指南、API文档等,以支持日常答疑运维工作。 3、安全、稳定、效率和性能优化 • 通过数据分析,稳定性研究和性能测试,持续推动升级和优化云产品管控架构,实现高可用、高性能的管控系统; • 运用产品优化技术和方法,实现安全保障和优化系统性能,提高阿里云产品管控安全性,同时帮助客户提效,给客户更好的体验。 4、技术预研 • 跟踪和了解国内外云计算技术和分布式计算技术的发展和趋势,结合业务实际需要提供有效的技术支持和架构建议。 5、技术规划 • 理解业务重点,基于业务需求做出高可用、高可靠、高拓展性的技术架构规划和落地。

更新于 2025-10-13
logo of aliyun
社招5年以上云智能集团

1.构建盘古分布式文件系统的标准化输出能力,提高系统的自动化部署、运维能力; 2.梳理盘古分布式文件系统管控系统的依赖,降低对外部系统的依赖,建立运维管控系统回归测试能力; 3.重构盘古管控系统的数据层和逻辑层,确保系统在迭代更新的过程中始终保证兼容性和服务稳定; 4.对接阿里云安全体系和基础管控系统,确保系统能在多用户环境下安全稳定运行。

更新于 2025-09-11
logo of aliyun
社招5年以上云智能集团

1、技术方案设计 • 基于业务关键路径与风控等级,主导可靠性目标体系设计:SLA、SLO、SLI 定义与度量口径固化,建立 Error Budget 机制并推动准入/发布决策闭环; • 设计统一的可观测性与事件数据模型(日志/指标/链路/事件/变更),输出监控覆盖与告警分级策略; • 面向容量与资源弹性制定预测与规划方案:峰值建模、容量水位、扩缩容阈值、突增防护。 2、技术实现 • 将可靠性方案拆解为落地任务:指标接入、探针开发、告警规则、治理脚本、自动化运维工具、调度策略优化等,按规范交付; • 编写高质量自动化脚本与服务(Python/Go/Java/Shell),实现批量操作、巡检、数据对账、状态校验、健康探测与回滚; • 深度参与故障应急:值班 OnCall、事件指挥、跨团队协调、战情同步;推动 MTTA/MTTR 降低。 3、安全、稳定、效率和性能优化 • 建立全链路 SLI 指标体系:可用性、延迟、吞吐、错误率、资源利用率、队列深度、调度成功率、实例生命周期关键状态等;持续可视化与例会化分析; • 优化告警体系:告警质量指标(噪音率、误报率、漏报率、可行动性)、Alert → Incident 转换标准、分级通知矩阵; • 推进开发协同(左移):在设计、开发与测试阶段加入稳定性 CheckList(幂等性、重试策略、熔断/超时、探活、依赖降级、状态收敛)。 4、技术预研 • 预研 Chaos 工具/平台并结合业务特性沉淀标准化故障模型与韧性指标; • 评估智能告警关联、根因定位、异常检测(时序/拓扑/依赖图谱)算法的适用性与成本收益,推动 PoC 与灰度落地; • 针对下一代可观测性(日志与指标融合、采样优化、eBPF 无侵入追踪)提出演进路线。 5、技术规划 • 基于业务增长曲线、产品演进与战略项目制定年度/季度稳定性 OKR:SLO 提升、MTTR/噪音告警压降、自动化覆盖率、演练覆盖率、容量冗余下降、成本优化目标等; • 规划多活/容灾演进路线:跨 Region 容灾 → 主动故障转移 → 智能调度;分阶段 KPI(RTO/RPO、演练周期、切换自动化程度); • 制定发布与变更分级治理路线:高风险变更识别 → 准入标准 → 影子/灰度策略 → 自动化验收 → 全量放量策略 → 回滚演练常态化。

更新于 2025-09-17
logo of aliyun
社招5年以上云智能集团

1.技术方案设计 • 与PD紧密合作,收集、识别、分析云服务器(ECS)实例产品需求,确定技术方案的目标、范围和交付成果; • 基于需求分析,进行技术可行性分析和方案评审,选择合适的技术选型、功能设计、技术架构、数据架构和开发流程等。 2.技术实现 • 基于技术方案的拆解,按照任务目标和产出规范,完成任务/子任务的设计、编码开发和系统功能实现; • 负责核心功能的架构与代码模板的编写,开发与维护系统公用核心模块,技术架构重构、优化等; • 对编码进行阶段性的讨论和CodeReview,并通过调试优化,推动代码成功部署; • 在技术方案评审和CodeReview过程中,能够给予年轻工程师经验指导,帮助其快速成长; • 对开发中和部署后的程序进行必要的维护和迭代,包括值班oncall、升级工单处置、bug排查、问题诊断、产品体验改善、性能和成本优化等。 3.稳定性和性能优化 • 制定稳定性策略,寻找并解决产品系统中的潜在风险和瓶颈,覆盖线上疑难杂症问题,确保系统的安全可靠; • 运用产品优化技术和方法,进行性能优化,提高产品稳定性和性能。 4.技术预研 • 及时掌握行业内新的产品技术和趋势,持续跟踪友商的产品形态和客户的业务特征,并将其转化为ECS的新产品技术需求,从而保证ECS产品能力的先进性。 5.技术规划 • 理解业务战略及重点,基于业务需求做出高可用、高可靠、高拓展性的技术架构规划和落地。

更新于 2025-09-18