
同程旅行运维研发工程师
任职要求
1、本科及以上学历,3年以上后端开发相关工作经验,有运维研发,私有云平台研发经验优先; 2、熟悉java或golang的机制与常用组件; 3、熟悉操作系统、网络、数据结构与算法,熟悉并深入理解常用组件原理,包括并…
工作职责
1、参与公司运维监控体系、运维控制台、私有云平台的设计与实现; 2、参与公司自动化运维体系的建设; 3、紧跟业界技术,对新技术研究和应用,并推动合适的技术用于实践。
1.负责网易游戏数据库日常运维工作,包括不限于数据库配置管理、版本升级、扩容等; 2.负责数据库集群监控、用户问题跟踪分析和处理,保障业务稳定; 3.响应用户需求,根据项目需求设计并制定数据库解决方案; 4.参与数据库工具、组件、数据库运维管控平台等开发,提高服务自动化率、管理效率。
运维研发工程师(SRE)是指用软件工程的方法来管理系统、解决问题并实现运维自动化,以减少琐事,提高服务的可用性。 包括但不限于如下工作内容: 1. 负责网易互娱业务的运维工作,如蛋仔派对、第五人格、UU加速器、一梦江湖、王牌竞速等在线业务,以及公司内部在研项目。; 2. 根据不同游戏的服务架构、性能需求以及业务情况,为游戏服务端设计选用基础运行环境(包括服务器、虚拟化、云服务、网络、数据库等),为游戏提供可控成本下高质、高效的运维服务; 3. 建立与监控各类运维指标,定制数据分析标准; 4. 联合产品部门,根据游戏和基础环境情况及时发现问题、优化技术架构,提升用户体验; 5. 参与前沿开源软件、虚拟化、数据库、WEB服务的深入研究,结合业务落地技术方案。
关于我们: 我们是业务中台-SRE团队,我们正在负责字节跳动多个业务线如抖音搜索、抖音生活服务、今日头条、教育等多个应用的稳定性工作,通过MTTR治理、故障预防、容灾演练、机房建设等多个技术手段,保证多款核心业务高质量服务水平。 业务挑战: 我们团队需要支撑多个不同阶段的业务线,抖音搜索、抖音生活服务在业务复杂度、迭代速度、数据规模同样在快速增长,需要逐一突破每个业务不同的稳定性痛点,逐步成为字节中国业务稳定性优秀团队。 技术挑战: 在横向方面,我们要面向多个业务线探索通用的SRE解决方案,主导SRE技术方向在不同阶段的业务落地; 在纵向方向,我们要深入到业务中,深挖业务的痛点,面向多机房容灾等难题,为业务量身定制不同的稳定性解决方案。 1、持续支撑抖音搜索、抖音生活服务、今日头条等多条业务日常稳定性保障,构建并优化可观测性大盘,积极参与响应和应急,持续提升MTTR和SLA; 2、参与SRE技术平台研发,提升运维效率,推动风险治理,不限于监控告警、变更管控、风险巡检、预案演练、资源管理、成本优化等方向,强化通用化SRE技术能力; 3、参与热点流量、春节活动、营销活动稳定性保障,引导 SRE 运维工作朝着自动化、平台化、智能化方向演进,提升基础架构各组件体系整体运维管理效率。