阿里云诚云科技-运维开发专家-CTO
任职要求
1、本科及以上学历
2、在互联网企业或云厂商从事交付或SRE等相关工作,具备5年及以上工作经验
3、熟悉云平台部署及交付,有私有云/公有云部署及运维经验
4、具备运维平台和运维工具开发能力…工作职责
1. 负责公有云产品自动化部署平台编排及开发; 2. 负责基于框架做部署自动化流程编排及功能开发; 3. 负责云产品的日常运维及支撑交付问题支持。
1、技术服务与支持 • 积极响应热线、官网反馈、工单等多渠道的客户反馈和咨询,快速定位问题,解决疑难客户问题,在服务过程中关注客户体验提升、有效管控客情 • 对业务流程类问题,快速定位问题、解决问题,或拉通相关部门(如法务、财务、税务等)人员共同解答客户问题 (CTO线-TSE:积极响应客户及内部需求方的技术需求,通过技术手段解决客户及产品线问题,并最终得到认可) 2、标准化方案沉淀(7级及以上) • 持续推进业务流程类服务的标准化建设,包括服务升级处置流程、故障应急流程、知识沉淀流程等 • 沉淀标准化的业务流程类服务方案,比如推动产品、工具、知识库的建设和改进 • 编写相关业务流程类分析报告,输出知识库、服务流程文档等 • 负责提供业务流程相关专业的培训赋能 3、生态运营管理 • 通过技术赋能、认证培训、质量体系、工具平台和组织文化建设等手段,建设服务生态体系 • 通过服务承包责任制,管控生态伙伴的服务过程和结果,保证服务关键指标的达成,无重大安全生产事故

1、负责运维自动化、可观测性、GPU算力等平台能力的建设; 2、运用大数据、算法、智能AI等技术,实现运维故障定位、根因分析、自愈恢复和事后跟踪评估等能力; 3、完善现有运维管理自动化工作流程和方法,不断迭代实现运维交付工具的集成,提升运维及研发效率;
1、设计和实现高性能、可靠的对象存储系统,满足大规模数据存储和访问需求; 2、负责对象存储系统核心功能的研发,包括数据存储、数据访问、数据迁移复制等; 3、制定稳定性策略,寻找并解决产品系统中的潜在风险和瓶颈,覆盖线上疑问,保障系统安全可靠。运用产品优化技术和方法,进行性能优化。 4、分析用户需求,优化存储系统架构,提高系统的扩展性、灵活性和可维护性; 5、负责对象存储相关工具和平台的开发,提升对象存储系统的高运维性。
1. 负责 Linux 内核稳定性保障与热修复,保障宕机、夯机、网络抖动等关键故障的根因分析与快速恢复。 2. 基于 eBPF/BCC/BPFtrace 等技术构建高可靠、低开销的内核级观测、剖析体系,并将其作为核心数据源接入智能运维平台。 3. 设计并实现操作系统 AI Agent 架构,融合实时系统指标与大模型推理能力,支持故障预测、根因推断与自动化修复决策。 4. 参与 OS 运维平台建设,推动监控、诊断、配置管理与热补丁下发等模块的标准化、自动化与智能化演进。 5. 积极参与 Linux 上游社区,贡献稳定性相关补丁,提升云基础设施的长期可维护性与技术影响力。