腾讯腾讯云AI代码助手-高级SRE工程师
任职要求
1.本科及以上学历,计算机科学、软件工程、信息系统等相关专业优先;具有 3 年以上 SRE 或相关运维工作经验,有大型互联网公司运维经验者优先; 2.熟练掌握 Linux 操作系统,精通 Python 或 Shell 等脚本语言,能编写自动化运维脚本;熟悉网络基础知识,掌握 TCP/IP 协议、网络拓扑结构及故障排查方法;熟悉 Prometheus、Loki、Grafana 等,能定制指标和告警规则; 3.具备丰富的容器化技术(Docker、Kubernetes)使用和运维经验,熟悉容器编排调度机制;了解 MySQL、Redis 等数据库基本原理和运维操作,可进行简单性能优化和故障处理; 4.具备较强的问题解决和故障排查能力,有良好的团队协作、沟通能力,学习能力强,能适应快速变化的技术环境,有责任心和抗压能力;有流水线搭建经验,熟悉主流的 CI/CD 工具(如 Jenkins、GitLab CI/CD 等),对研发流程优化有深入的理解和实践经验。 加分项 1.在同等条件下,通过腾讯云认证或取得同等资格认证的候选人,我们会优先考虑。
工作职责
1.负责 AI 代码助手平台线上业务系统的日常运维,保障系统 7×24 小时稳定运行; 2.设计并完善 AI 代码助手的监控体系,实时监控系统性能、资源利用率、用户并发连接数等关键指标,通过数据分析提前发现潜在风险并制定解决方案; 3.制定并实施系统可靠性提升方案,优化 AI 代码助手的系统架构与部署,增强系统在高并发场景下的可用性和容错能力; 4.开发和维护自动化运维工具与脚本,实现服务器部署、配置管理、故障处理等运维任务的自动化,提升运维效率; 5.建立并完善应急响应机制,制定应急预案并定期演练,在系统故障时快速响应恢复;深入分析故障,制定改进措施避免复发; 6.结合业务发展和用户增长预测,对 AI 代码助手系统进行容量规划和性能评估,提前调整服务器资源,优化系统性能; 7.负责研发效能提升工作,搭建高效的流水线,实现代码自动化构建、测试与部署,减少人工干预,提升交付速度。
1. 负责GitLab、SVN、Perforce等版本管理工具的日常维护,参与相关工具的二次开发和定制化功能开发。 2. 负责持续集成(CI)、持续交付(CD)流水线的设计、优化和自动化管理,推动DevOps最佳实践落地。 3. 参与并推动公司各类开发、测试工具链的集成与自动化流程建设,提升研发效率和交付质量。 4. 参与应用日志采集、监控与报警系统的搭建、维护和优化,保障系统稳定性与安全性。 5. 协助开发团队解决代码管理、分支合并、冲突解决等相关问题,提升团队协作效率。 6. 编写和维护相关技术文档,制定运维和开发流程规范,协助团队成员培训与技术支持。 7. 关注并评估业界新技术,推动运维体系的持续改进和创新。
系统可靠性设计与实施:设计和实施可靠、可扩展和高性能的系统架构,确保全球用户的无缝体验。 故障排除与应急响应:主导重大故障的指挥,组织各方有序处理,制定并实施应急预案,确保快速响应和问题解决。 跨团队协作:与开发、产品和运营团队紧密合作,持续提升交付效率和质量。 容量规划:进行容量规划和管理,优化资源利用率,降低成本。 国际化部署方案支持:规划和实施全球化的部署方案,确保各地区的系统一致性和高效运行。针对不同地域的网络环境和法规要求,优化系统架构和数据传输策略。
1.负责公司MySQL、Redis、MongoDB、PostgreSQL等数据库运维工作,保证系统7*24小时稳定运行 2.负责公司业务线数据库稳定高效运行,协助业务解决潜在的数据库风险,保障SLA达成 3.数据库架构设计:负责公司数据库高可用(HA)及容灾、读写分离、分库分表、分布式数据库等架构设计,确保系统稳定性和可扩展性 4.数据安全:实施数据库权限管理、审计、加密、防注入、备份恢复等安全策略,确保数据安全合规 5.性能优化:监控并优化SQL查询、索引、存储引擎配置,解决慢查询、死锁、高负载等问题,提升数据库响应速度 6.自动化运维:运用DevOPS/AIOPS技术提升运维效率,不断提升数据库运维工程化水平 7.新技术研究:跟踪云数据领域关键核心技术及行业动态,推动数据库架构升级