logo of tencent

腾讯大模型SRE运维工程师(搜广推方向)

社招全职5-8年TEG技术地点:深圳状态:招聘

任职要求


1.计算机科学、软件工程、信息技术或相关专业本科及以上学历;
2.5-8年互联网行业SRE、运维工程师或资源管理经验,有大型互联网公司工作经验者优先;
3.熟悉Linux操作系统,具备扎实的系统管理和网络知识;熟练掌握至少一种编程语言(如PythonGoShell等),有自动化运维工具开发经验;具备容器化和微服务架构经验,熟悉Kubernetes、Docker等技术;
4.具备资源规划和成本控制…
登录查看完整任职要求
微信扫码,1秒登录

工作职责


1.负责广告模型平台的系统稳定性和高可用性,确保平台在高并发和大流量下的稳定运行,设计和实施监控、报警和自动化运维平台建设等,及时发现和解决系统问题;
2.负责系统故障的快速定位和修复,制定并执行应急预案,确保业务连续性,参与故障复盘,分析根本原因,提出改进措施,防止类似问题再次发生;
3.开发和维护自动化运维平台与工具,提高运维效率,减少人为操作失误。进行资源使用优化,提高资源利用率,提升系统性能;
4.负责广告模型平台资源规划和管理,确保资源的合理分配和高效利用,进行资源成本分析,监控和评估资源使用情况,提出成本优化方案,同时能结合业界硬件演进roadmap与技术平台需求不断推动最优配置选型与迭代。
包括英文材料
学历+
Linux+
Python+
Go+
还有更多 •••
相关职位

logo of tencent
社招3年以上AI技术

1.负责大模型服务的稳定性和高可用性,确保平台在高并发和大流量下的稳定运行,设计和实施监控、报警和自动化运维平台建设等,及时发现和解决问题; 2.负责故障的快速定位和修复,制定并执行应急预案,确保业务连续性,参与故障复盘,分析根本原因,提出改进措施,防止类似问题再次发生; 3.开发和维护自动化运维平台与工具,提高运维效率,减少人为操作失误。进行资源使用优化,提高资源利用率,提升系统性能; 4.分析和深入发掘现有系统的不足,数据驱动找到薄弱点,推动系统优化落地改进; 5.负责资源规划和管理,确保资源的合理分配和高效利用,进行资源成本分析,监控和评估资源使用情况,提出成本优化方案,同时能结合业界硬件演进roadmap与技术平台需求不断推动最优配置选型与迭代。

更新于 2025-09-08深圳
logo of jd
社招2年以上软件开发岗

1、负责开发IT统一运维平台、监控报警体系和Devops自动化平台的构建、设计、开发、部署、升级与维护,包括不限于监控告警系统、日志系统、容量管理、CMDB资源管理、配置中心、调度系统、流程系统、IM服务平台等系统开发 2、运维自动化工具开发:基于SRE运维工作,理解需求背景和业务发展,开发自动化工具和平台提升效率; 3、SRE高可用保障:参与故障应急、稳定性优化等工作,并设计系统助力运维能力提升; 4、负责IT成本管理,稳定性建设,日志分析、挖掘问题隐患、配合制作相关预案,项目跟进 5、负责日常应用运维oncall,SRE,包括配置、优化、备份、故障处理等工作

更新于 2025-08-17北京
logo of jd
社招2年以上软件开发岗

1、负责开发IT统一运维平台、监控报警体系和Devops自动化平台的构建、设计、开发、部署、升级与维护,包括不限于监控告警系统、日志系统、容量管理、CMDB资源管理、配置中心、调度系统、流程系统、IM服务平台等系统开发 2、运维自动化工具开发:基于SRE运维工作,理解需求背景和业务发展,开发自动化工具和平台提升效率; 3、SRE高可用保障:参与故障应急、稳定性优化等工作,并设计系统助力运维能力提升; 4、负责IT成本管理,稳定性建设,日志分析、挖掘问题隐患、配合制作相关预案,项目跟进 5、负责日常应用运维oncall,SRE,包括配置、优化、备份、故障处理等工作

更新于 2025-10-10北京
logo of jd
社招2年以上软件开发岗

1、负责开发IT统一运维平台、监控报警体系和Devops自动化平台的构建、设计、开发、部署、升级与维护,包括不限于监控告警系统、日志系统、容量管理、CMDB资源管理、配置中心、调度系统、流程系统、IM服务平台等系统开发 2、运维自动化工具开发:基于SRE运维工作,理解需求背景和业务发展,开发自动化工具和平台提升效率; 3、SRE高可用保障:参与故障应急、稳定性优化等工作,并设计系统助力运维能力提升; 4、负责IT成本管理,稳定性建设,日志分析、挖掘问题隐患、配合制作相关预案,项目跟进 5、负责日常应用运维oncall,SRE,包括配置、优化、备份、故障处理等工作 6、关注行业趋势变化和竞品动态,持续完善产品功能; 7、​撰写详细的产品需求文档(PRD)​、原型设计(Wireframe/Mockup),清晰地向团队梳理需求,推进落地。

更新于 2025-10-15北京