通义通义实验室-技术专家-SRE运维
任职要求
1、计算机及相关专业,3年以上的SRE/Devops经验,有大型互联网公司运维经验者优先; 2、熟悉常见的公共云服务,熟练使用通用云产品(如VPC、ECS、SLB、RDS等),具备云原生运维经验; 3、深入理解Linux系统原理及运维体系,熟悉分布式系统设计。熟练掌握Kubernetes与Docker架构及技术原理,有大规模生产集群的部署、调优及故障排查经验; 4、熟悉Prometheus、Grafana、ELK、SkyWalking、OpenTelemetry等可观测性技术栈; 5、至少掌握Python/Go/Shell任意一门语言,熟悉主流Web框架,有运维工具开发经验者优先; 6、具备优秀的逻辑分析能力与系统性思维,对技术敏感度高,有强烈的责任心,具备优秀的沟通能力、执行力及团队合作精神。 加分项 1、参与过混沌工程、全链路压测、多活容灾等大型稳定性项目; 2、有云原生技术(如Serverless、Service Mesh)落地经验或开源项目贡献者优先。
工作职责
1、稳定性保障与体系建设:负责大模型服务平台及人工智能产品的稳定性保障工作,通过指标建设、预案设计、容量规划、监控完善、建立SOP等手段提升业务可用性与可靠性; 2、高并发流量治理:主导大规模分布式系统及高并发场景下的流量治理方案设计与实施,包括弹性扩缩容以及熔断、限流、降级等容灾策略,确保业务连续性与鲁棒性; 3、运维流程优化与自动化:优化现有部署、监控及维护流程,推动运维自动化与平台化建设,提升研发效率与系统可观测性。负责监控/日志/网络/存储等原生基础设施的保障和工具开发; 4、Oncall与应急响应:参与OnCall值班,快速定位并解决生产环境故障,主导重大事件应急响应与复盘;建立故障快速恢复机制,推动根因分析及长效改进措施落地。

1. 负责公司业务系统运维工作,提升业务稳定性和工程效率,与业务方保持高效沟通,建立良好合作关系; 2. 负责应用上线评审、上线交付、配置变更、状态监控、容量管理、故障应急响应工作; 3. 参与业务服务端架构的高可用设计和性能优化,保证高效、可靠的业务迭代; 4. 负责线上重大问题排查,紧急事故处理,后续事故分析与优化; 5. 负责应用故障演练、应急预案、SOP手册编写工作,确保故障时业务能快速恢复; 6. 负责应用高可用建议及管理,包括限流、降级,容错、容灾,同城多活,确保应用质量; 7. 建立SLA评估标准,计算故障对SLA影响,并对SLA后续改进措施进行跟进; 8. 负责运维规范、流程文档编制,并将其工具化、平台化,确保运维安全,提升运维效率。

1. 负责公司平台服务运维工作,管理平台运维团队,提升业务稳定性和工程效率。 2. 负责应用上线评审、上线交付、配置变更、状态监控、容量管理、故障应急响应工作。 3. 参与业务服务端架构的高可用设计和性能优化,保证高效、可靠的业务迭代。 4. 负责线上重大问题排查,紧急事故处理,后续事故分析与优化。 5. 负责应用故障演练、应急预案、SOP手册编写工作,确保故障时业务能快速恢复。 6. 负责应用容器化场景下高可用建议及管理,包括限流、降级,容错、容灾确保应用质量。 7. 负责运维规范、流程文档编制,并将其工具化、平台化,确保运维安全,提升运维效率。
1.负责腾讯云公有云客户云上售后SRE专家支持工作,为客户提供容灾高可用,业务部署优化,架构优化,成本优化,容量管理,业务连续性治理等方面的专家服务; 2.帮助客户进行应用部署架构的梳理与优化,通过云产品自身提供的高可用能力或者业界主流的容灾方案,为客户提供容灾高可用优化方案的设计与实施; 3.通过混沌工程等演习手段,设计并实施客户应用业务层面的容灾方案与验证; 4.对常见的互联网IT故障,设计应急预案并工具化落地,帮助客户实现容灾自动化逃生能力,达到客户业务对 RTO/RPO 要求; 5.通过产品化,工具化的思路,提升客户在云上SRE管理与治理方面的体验与效率。