阿里云阿里云智能-异常调度平台研发专家-北京/杭州

社招全职5年以上技术类-开发2025-06-18地点：北京 | 杭州状态：招聘

扫码手机上打开

任职要求

1、5年以上IT、互联网、云计算开发、运维相关工作经验；
2、精通Java/Python语言，有通过Java/Python语言开发过Web平台，熟悉1-2个其他语言；
3、对自己负责的研发模块具备快速上线、响应、应急处理能力；
4、熟悉常用设计模式，有大型分布…

登录查看完整任职要求

微信扫码，1秒登录

工作职责

1、负责Guest OS相关系统 单元化改造；
2、负责镜像构建相关系统单元号改造；
3、负责自诊断，云助手，SMC等端上能力一国一云需求适配。

📮 投递简历 ✨AI模拟面试

难度：

包括英文材料

Java+

Python+

Web+

设计模式+

还有更多 •••

登录查看完整学习资料

相关职位

阿里云智能-AI智算集群监管控及算力管理平台研发专家-北京/杭州

社招5年以上云智能集团

1. 建设灵骏在专属云场景监管控系统核心能力，不断提升专属云客户在云上使用灵骏智算集群产品的自动化、智能化程度。 2. 建设满足专属云业务场景和数据合规要求的智算集群库存管理体系，结合节点调度、性能分析、故障自动化处理、租户运维功能等核心体系能力，持续提升灵骏智算集群产品在专属云市场的产品竞争力。 3. 结合专属云特殊基础设施情况，建设智算集群和管控系统自身高可用体系，如智算集群健康检测、节点与集群异常快速处置体系、管控组件故障自动定位、自动恢复、自适应容灾、云原生技术实施及落地等，保障业务持续可用、保障线上系统稳定性。 4. 建设异构算力统一管理及资源调度系统，持续智算集群资源利用率、降低计算成本。 5. 持续跟踪AI智算、云原生及智能运维领域新技术，结合业务场景进行创新。 6. 该职位涉及值班响应的职责，在服务级别协议（SLA）时间内做出对客响应，推动客户问题的解决，改善客户体验。

更新于 2025-10-31北京|杭州

阿里云智能-弹性计算高级测试开发专家-北京/杭州

社招8年以上云智能集团

1. 针对ECS异常调度“运维决策大脑”，设计多维的异常调度可验证体系，通过融合存储、心跳、网络状态等多路信号，从根本上解决因单一信号误判导致的业务中断风险，确保自动化决策的精准性； 2. 针对ECS海量线上数据和全链路性能问题，设计和开发创新的测试解决方案与平台，建立精准、高效的性能和稳定性度量体系； 3. 面向失败的可验证性设计，验证系统的韧性架构，尤其针对规模性故障（机房、核心系统依赖），推动核心组件的降级、熔断、故障恢复能力，通过故障注入等方式验证系统的鲁棒性； 4. 作为产品线研发安全生产的构建者，负责在多产品/复杂系统层面构建并落地完善的研发安全生产规范和流程，保障系统的可容灾、可观测、可处置、可运维、可快速恢复； 5. 主导跨产品、大型复杂系统的质量保障工作，组织和推动高水准的稳定性演练（如容灾、红蓝对抗），培养团队的研发安全生产意识和专业能力； 6. 对AIOps/SRE及质量保障领域的技术发展趋势有前瞻性判断，负责测试技术预研、技术难点攻关，推动技术变革与创新，为产品线带来显著收益。

更新于 2025-09-17北京|杭州

阿里云智能-管控系统SRE研发专家-北京/杭州

社招5年以上云智能集团

1、技术方案设计 • 基于业务关键路径与风控等级，主导可靠性目标体系设计：SLA、SLO、SLI 定义与度量口径固化，建立 Error Budget 机制并推动准入/发布决策闭环； • 设计统一的可观测性与事件数据模型（日志/指标/链路/事件/变更），输出监控覆盖与告警分级策略； • 面向容量与资源弹性制定预测与规划方案：峰值建模、容量水位、扩缩容阈值、突增防护。 2、技术实现 • 将可靠性方案拆解为落地任务：指标接入、探针开发、告警规则、治理脚本、自动化运维工具、调度策略优化等，按规范交付； • 编写高质量自动化脚本与服务（Python/Go/Java/Shell），实现批量操作、巡检、数据对账、状态校验、健康探测与回滚； • 深度参与故障应急：值班 OnCall、事件指挥、跨团队协调、战情同步；推动 MTTA/MTTR 降低。 3、安全、稳定、效率和性能优化 • 建立全链路 SLI 指标体系：可用性、延迟、吞吐、错误率、资源利用率、队列深度、调度成功率、实例生命周期关键状态等；持续可视化与例会化分析； • 优化告警体系：告警质量指标（噪音率、误报率、漏报率、可行动性）、Alert → Incident 转换标准、分级通知矩阵； • 推进开发协同（左移）：在设计、开发与测试阶段加入稳定性 CheckList（幂等性、重试策略、熔断/超时、探活、依赖降级、状态收敛）。 4、技术预研 • 预研 Chaos 工具/平台并结合业务特性沉淀标准化故障模型与韧性指标； • 评估智能告警关联、根因定位、异常检测（时序/拓扑/依赖图谱）算法的适用性与成本收益，推动 PoC 与灰度落地； • 针对下一代可观测性（日志与指标融合、采样优化、eBPF 无侵入追踪）提出演进路线。 5、技术规划 • 基于业务增长曲线、产品演进与战略项目制定年度/季度稳定性 OKR：SLO 提升、MTTR/噪音告警压降、自动化覆盖率、演练覆盖率、容量冗余下降、成本优化目标等； • 规划多活/容灾演进路线：跨 Region 容灾 → 主动故障转移 → 智能调度；分阶段 KPI（RTO/RPO、演练周期、切换自动化程度）； • 制定发布与变更分级治理路线：高风险变更识别 → 准入标准 → 影子/灰度策略 → 自动化验收 → 全量放量策略 → 回滚演练常态化。

更新于 2025-11-26北京|杭州

阿里云智能-百炼系统架构技术专家-北京/杭州

社招5年以上云智能集团

1. 负责大模型应用和系统整体架构设计与演进，打造具备弹性调度能力、服务稳定、低延迟响应的全链路应用和系统。 2. 主导平台的 DevInfra 能力建设，覆盖CI/CD、灰度发布、可观测性、异常诊断与系统治理等关键模块，提升研发交付效率。 3. 优化业务、平台、应用的架构设计，持续提升平台能力与技术领先性。

更新于 2026-01-07北京|杭州