logo of netease

网易数据库运维研发工程师(杭州)

社招全职3-5年网易游戏(互娱)地点:杭州状态:招聘

任职要求


1.3年及以上数据库(MySQL/TiDB/Redis/MongoDB等)管理经验,熟悉数据库基本原理和常见操作,熟悉MongoDB优先;
2.熟悉Linux操作系统,具有较强的问题定位、分析和解决能力,有一定的现网问题处理经验;
3.对计算机硬件设备、网络设备有一定了解,熟悉 …
登录查看完整任职要求
微信扫码,1秒登录

工作职责


1.负责网易游戏数据库日常运维工作,包括不限于数据库配置管理、版本升级、扩容等;
2.负责数据库集群监控、用户问题跟踪分析和处理,保障业务稳定;
3.响应用户需求,根据项目需求设计并制定数据库解决方案;
4.参与数据库工具、组件、数据库运维管控平台等开发,提高服务自动化率、管理效率。
包括英文材料
MySQL+
TiDB+
Redis+
MongoDB+
Linux+
还有更多 •••
相关职位

logo of antgroup
社招3年以上技术-开发

负责蚂蚁数据分析平台的数据分析智能助理Copilot、数据分析Manus等智能化产品的调研、开发、运维、用户答疑。通过智能化技术升级产品体系,降低数据分析门槛,从而提升数据分析的效率和效果。

更新于 2025-09-25杭州
logo of aliyun
社招3年以上云智能集团

业务支撑 • 负责资源编排ROS运维系统、AI诊断、AI运维助理、运维MCP等功能 • 负责资源编排ROS管控功能、资源逻辑和IaC引擎等模块 技术方案设计 • 收集、识别、分析客户需求,并确定技术方案的目标、范围和交付成果 • 基于需求分析,进行技术可行性分析和方案评审,选择合适的技术选型、功能设计、技术架构、数据架构和开发流程等 技术实现 • 基于技术方案的拆解,按照任务目标和产出规范,完成任务/子任务的设计、编码开发和系统功能实现 • 负责核心功能的架构与代码模板的编写,开发与维护系统公用核心模块,技术架构重构、优化等 • 对编码进行阶段性的讨论和CodeReview,并通过调试优化,推动代码成功部署 • 对开发中和部署后的程序进行必要的维护和迭代,包括值班Oncall、升级工单处置、Bug排查、问题诊断、产品体验改善、性能和成本优化等 稳定性和性能优化 • 制定稳定性策略,寻找并解决产品系统中的潜在风险和瓶颈,覆盖线上疑难杂症问题,确保系统的安全可靠 • 运用产品优化技术和方法,进行性能优化,提高产品稳定性和性能 技术预研 • 跟踪和了解新的产品技术和趋势,根据业务需要提供新的技术支持和建议 技术规划 • 理解业务战略及重点,基于业务需求作出高可用、高可靠、高拓展性的技术架构规划和落地

更新于 2026-01-09北京|杭州
logo of netease
社招网易游戏(互娱)

运维研发工程师(SRE)是指用软件工程的方法来管理系统、解决问题并实现运维自动化,以减少琐事,提高服务的可用性。 包括但不限于如下工作内容: 1. 负责网易互娱业务的运维工作,如蛋仔派对、第五人格、UU加速器、一梦江湖、王牌竞速等在线业务,以及公司内部在研项目。; 2. 根据不同游戏的服务架构、性能需求以及业务情况,为游戏服务端设计选用基础运行环境(包括服务器、虚拟化、云服务、网络、数据库等),为游戏提供可控成本下高质、高效的运维服务; 3. 建立与监控各类运维指标,定制数据分析标准; 4. 联合产品部门,根据游戏和基础环境情况及时发现问题、优化技术架构,提升用户体验; 5. 参与前沿开源软件、虚拟化、数据库、WEB服务的深入研究,结合业务落地技术方案。

更新于 2025-05-21杭州
logo of aliyun
社招3年以上云智能集团

部门介绍:云智能集团承载着阿里巴巴集团在高科技领域的核心技术和业务创新,致力于构建数字经济时代的企业级云计算服务平台,并且在全球范围内提供先进的技术解决方案和服务,具备超大业务规模以及复杂的企业级云计算服务。 云智能集团SRE团队的使命是保障云智能集团生产环境的稳定性以及企业级云计算数据可靠性,服务连续性。如何保障云上客户的业务连续运行以及不止于99.99%的可用性,是我们面临的巨大挑战。 云智能集团SRE团队的目标是建立技术和管理结合的体系化稳定性保障体系,包括但不局限于: 1.制定稳定性规范和度量,如涵盖健壮性架构、研发质量、发布变更、生产环境运行管理等方面,把稳定性贯彻到阿里云技术研发体系 2.推动开展稳定性架构治理重大战役,如全栈容灾,变更灰度,应急1-5-10,资损防控等战役,将稳定性风险快速持续收敛 3.构建稳定性技术中台,无人值守变更,红蓝攻防,应急协同,风险隐患巡检,监控发现等方面建设平台化能力,让稳定性工程更简单 4.应急处置生产环境故障,应急响应,处置协同,故障定位,故障恢复,故障复盘改进 5.通过技术和服务全方位保障客户业务的大型活动稳定性保障,如淘天集团双11,亚运会、奥运会以及客户业务关键期保障 岗位职责: 1. 管理阿里云产品及系统的所有技术类故障,日常支持包括应急响应、协同调度、复盘改进等故障全生命周期管理,持续优化该管理体系的质量、效率、成本,提升整体服务品质。 2. 负责设计、落地各类云业务的运维保障解决方案,包含但不局限于:线上问题管理、全维度全链路的监控管理、线上生产变更管理、故障容灾演练管理、大促重大活动管理以及稳定性文化建设。 3. 主导并推进标准运维保障解决方案的落地工作,提升服务效率,实现高效自动化且可扩展的技术服务运行模式。 4. 结合运维保障解决方案在阿里云的落地经验,梳理提炼形成云上用户的标准运维保障解决方案,独立服务某领域的解决方案设计和建设,并持续化落地优化。 5. 该职位涉及值班响应的职责,在服务级别协议(SLA)时间内做出对客响应,推动客户问题的解决,改善客户体验

更新于 2025-10-14杭州