logo of aliyun

阿里云阿里云智能-管控系统研发专家-北京/杭州

社招全职5年以上云智能集团地点:北京 | 杭州状态:招聘

任职要求


5年以上IT、互联网、云计算开发、运维相关工作经验;
• 精通Java语言和Spring等基础框架,有使用Java语言进行后端系统开发的经验,熟悉Python脚本语言;
• 熟练掌握分布式系统设计的基本原理和最佳实践,熟悉RPC框架、缓存、消息系统等的技术原理并有相关的使用经验;
• 熟练掌握Mysql等关系型数据库的原理和使用,有数据库性能优化经验;
• 熟悉Linux操作系统常见命令,熟悉Shell脚本编程技术;
• 了解常见Web攻击方式,熟悉基本的计算机网络原理;
• 具备良好的代码质量意识,熟悉单元测试和自动化接口测试;
• 具备对所负责研发模块进行快速上线、快速响应和应急处理的能力;
• 能够独立…
登录查看完整任职要求
微信扫码,1秒登录

工作职责


1、技术方案设计
• 参与云产品管控系统的架构升级和优化工作,根据管控系统的稳定性、性能、安全等目标设计相应的技术方案,并明确方案目标、范围和交付成果;
• 基于需求进行技术可行性分析和方案评审,结合当前的技术架构进行合适的技术选型和功能设计。完成技术架构和数据架构设计,并推进开发流程。

2、技术实现
• 基于技术方案的拆解,按照任务目标和产出规范,完成任务/子任务的设计、编码开发和系统功能实现;
• 负责核心功能的架构与代码模板的编写,开发与维护管控系统核心业务模块,优化程序性能等;
• 对编码进行阶段性的讨论和CodeReview,并通过调试优化,推动代码成功部署;
• 对开发中和部署后的程序进行必要的维护和迭代,包括值班oncall、bug排查、问题诊断、产品体验改善、性能和成本优化等;
• 编写技术文档,如操作手册、故障排除指南、API文档等,以支持日常答疑运维工作。

3、安全、稳定、效率和性能优化
• 通过数据分析,稳定性研究和性能测试,持续推动升级和优化云产品管控架构,实现高可用、高性能的管控系统;
• 运用产品优化技术和方法,实现安全保障和优化系统性能,提高阿里云产品管控安全性,同时帮助客户提效,给客户更好的体验。

4、技术预研
• 跟踪和了解国内外云计算技术和分布式计算技术的发展和趋势,结合业务实际需要提供有效的技术支持和架构建议。

5、技术规划
• 理解业务重点,基于业务需求作出高可用、高可靠、高拓展性的技术架构规划和落地。
包括英文材料
Java+
Spring+
Python+
脚本+
分布式系统+
RPC+
还有更多 •••
相关职位

logo of aliyun
社招5年以上云智能集团

1. 技术方案设计 • 与PD紧密合作,收集、识别、分析客户需求,结合自身行业经验分析并论证需求合理性;在需求明确后,确定技术方案的目标、范围和交付成果; • 完成客户需求的技术方案设计,结合需求场景选择合理的技术架构,满足性能与稳定性要求,并保持足够的可扩展性,同时确保ROI(投入产出比)合理。 2. 技术实现 • 基于DDD(领域驱动设计)开发方法,按时完成弹性网卡(ENI)、安全组(Security Group)业务需求的开发,高质量交付; • 对编码进行阶段性讨论和Code Review,并通过调试优化,推动代码成功部署; • 在Code Review过程中,能够保持热情,及时给予年轻工程师经验指导,帮助其快速成长; • 对开发中和部署后的程序进行维护和迭代,包括值班on-call、升级工单处理、缺陷排查、问题诊断、产品体验改善、性能和成本优化等。 3. 稳定性和性能优化 • 与架构和SRE团队紧密合作,针对负责的功能制定稳定性策略,寻找并解决产品系统中的潜在风险和瓶颈,处理线上疑难杂症问题,确保系统的安全可靠; • 使用DDD(领域驱动设计)开发方法对存量代码进行重构,持续改善系统设计、提升系统性能并消除稳定性隐患。 4. 技术预研 • 定期调研业界对标产品的产品形态并结合客户反馈的业务诉求,分析并转化为ECS弹性网卡、ECS安全组等平台产品的需求;协同PD保持上述产品能力的先进性。 5. 技术规划 • 定期跟踪系统在性能和稳定性相关指标方面的变化趋势,及时分析原因,发现弹性能力演进的机会点,并提前设定技术架构演进的前瞻性目标,开展POC验证; • 对分布式技术、高性能通信技术、数据库技术等保持好奇心和敏锐性,结合业务实际做好技术预研、分享和应用。

更新于 2025-11-26北京|杭州
logo of aliyun
社招5年以上云智能集团

1、技术方案设计 • 参与云产品管控系统的架构升级和优化工作,根据管控系统的稳定性、性能、安全等目标设计相应的技术方案,并明确方案目标、范围和交付成果; • 基于需求进行技术可行性分析和方案评审,结合当前的技术架构进行合适的技术选型和功能设计。完成技术架构和数据架构设计,并推进开发流程。 2、技术实现 • 基于技术方案的拆解,按照任务目标和产出规范,完成任务/子任务的设计、编码开发和系统功能实现; • 对编码进行阶段性的讨论和CodeReview,完成功能测试和性能测试,推动代码成功部署; • 对开发中和部署后的程序进行必要的维护和迭代,包括值班oncall、bug排查、问题诊断、产品体验改善、性能和成本优化等; • 编写技术文档,如操作手册、故障排除指南、API文档等,以支持日常答疑运维工作。 3、安全、稳定、效率和性能优化 • 通过数据分析,稳定性研究和性能测试,持续推动升级和优化云产品管控架构,实现高可用、高性能的管控系统; • 运用产品优化技术和方法,实现安全保障和优化系统性能,提高阿里云产品管控安全性,同时帮助客户提效,给客户更好的体验。 4、技术预研 • 跟踪和了解国内外云计算技术和分布式计算技术的发展和趋势,结合业务实际需要提供有效的技术支持和架构建议。 5、技术规划 • 理解业务重点,基于业务需求做出高可用、高可靠、高拓展性的技术架构规划和落地。

更新于 2025-10-13北京|杭州
logo of aliyun
社招5年以上云智能集团

1.构建盘古分布式文件系统的标准化输出能力,提高系统的自动化部署、运维能力; 2.梳理盘古分布式文件系统管控系统的依赖,降低对外部系统的依赖,建立运维管控系统回归测试能力; 3.重构盘古管控系统的数据层和逻辑层,确保系统在迭代更新的过程中始终保证兼容性和服务稳定; 4.对接阿里云安全体系和基础管控系统,确保系统能在多用户环境下安全稳定运行。

更新于 2025-09-11北京|杭州
logo of aliyun
社招5年以上云智能集团

1、技术方案设计 • 基于业务关键路径与风控等级,主导可靠性目标体系设计:SLA、SLO、SLI 定义与度量口径固化,建立 Error Budget 机制并推动准入/发布决策闭环; • 设计统一的可观测性与事件数据模型(日志/指标/链路/事件/变更),输出监控覆盖与告警分级策略; • 面向容量与资源弹性制定预测与规划方案:峰值建模、容量水位、扩缩容阈值、突增防护。 2、技术实现 • 将可靠性方案拆解为落地任务:指标接入、探针开发、告警规则、治理脚本、自动化运维工具、调度策略优化等,按规范交付; • 编写高质量自动化脚本与服务(Python/Go/Java/Shell),实现批量操作、巡检、数据对账、状态校验、健康探测与回滚; • 深度参与故障应急:值班 OnCall、事件指挥、跨团队协调、战情同步;推动 MTTA/MTTR 降低。 3、安全、稳定、效率和性能优化 • 建立全链路 SLI 指标体系:可用性、延迟、吞吐、错误率、资源利用率、队列深度、调度成功率、实例生命周期关键状态等;持续可视化与例会化分析; • 优化告警体系:告警质量指标(噪音率、误报率、漏报率、可行动性)、Alert → Incident 转换标准、分级通知矩阵; • 推进开发协同(左移):在设计、开发与测试阶段加入稳定性 CheckList(幂等性、重试策略、熔断/超时、探活、依赖降级、状态收敛)。 4、技术预研 • 预研 Chaos 工具/平台并结合业务特性沉淀标准化故障模型与韧性指标; • 评估智能告警关联、根因定位、异常检测(时序/拓扑/依赖图谱)算法的适用性与成本收益,推动 PoC 与灰度落地; • 针对下一代可观测性(日志与指标融合、采样优化、eBPF 无侵入追踪)提出演进路线。 5、技术规划 • 基于业务增长曲线、产品演进与战略项目制定年度/季度稳定性 OKR:SLO 提升、MTTR/噪音告警压降、自动化覆盖率、演练覆盖率、容量冗余下降、成本优化目标等; • 规划多活/容灾演进路线:跨 Region 容灾 → 主动故障转移 → 智能调度;分阶段 KPI(RTO/RPO、演练周期、切换自动化程度); • 制定发布与变更分级治理路线:高风险变更识别 → 准入标准 → 影子/灰度策略 → 自动化验收 → 全量放量策略 → 回滚演练常态化。

更新于 2025-11-26北京|杭州