美团服务运维-高级SRE运维工程师
任职要求
1、 计算机相关专业。深入理解Linux系统,精通TCP/IP、HTTP等协议,具备扎实的网络、计算机体系结构方面的知识; 2、 至少熟悉一门编程语言,java/python/go,能开发工具提升效率; 3、 热爱技术,责任感强,拥有强大的项目执行力和良好的沟通协作能力; 4、 工作细致、善于思考,有较强的分析和解决问题的能力; 5、 具备良好的沟通以及协调能力,能独当一面,也擅长团队作战。
工作职责
1. 负责美团核心业务的稳定性保障工作; 2. 参与设计与开发devops工具,包括但不限于容量规划、资源管理、机房容灾、故障分析等; 3. 精细化数据运营,包括可用性指标、历史事故、资源利用率等,挖掘系统薄弱点,落地改进项目; 4. 积累运维最佳实践,为业务架构设计与组件选型提供指导,输出运维技术文档。
1、通过自动化和工程化手段来解决抖音服务端资源交付和管理问题,制定资源容量和管理计划,为不断增长的业务提供坚实的基础设施支持; 2、建设资源容量相关数据体系,由数据驱动制定资源容量和管理计划,持续优化供需,降低成本; 3、预测未来负载和资源需求,对历史和现有的系统负载、用户行为和数据趋势进行分析,并做出相应的资源规划和调整,避免资源短缺和超量配置导致的问题; 4、优化资源效率,设计、实现、部署自动化工具和系统来管理、监控和调整资源使用,实现资源自动扩缩,以及通过系统配置、优化算法、采用更高效的技术等方式,减少资源浪费,降低成本,提升性能; 5、支撑抖音服务端大型活动或项目的资源方案的落地,通过项目化运作保障业务发展并推动系统化能力的沉淀和建设; 6、建立和维护与其他团队的有效沟通和协作,例如开发、产品和运营团队,以实现资源的全生命周期管理。
1、保障抖音/火山/短视频等核心系统的线上稳定性,对线上事故进行快速响应并建立机制、平台提升处理效率; 2、参与建设运维工具、平台,推进运维自动化; 3、通过持续的全方位数据运营(包括可用性指标、历史事故、资源利用率等),找到系统薄弱点,落地地改进项目; 4、积累运维最佳实践,为业务架构设计与组件选型提供指导,输出运维技术文档; 5、推动提升服务的可靠性、可扩展性以及性能优化,保障系统SLA。
团队介绍:TikTok是一个覆盖150个国家和地区的国际短视频平台,我们希望通过TikTok发现真实、有趣的瞬间,让生活更美好。TikTok 在全球各地设有办公室,全球总部位于洛杉矶和新加坡,办公地点还包括纽约、伦敦、都柏林、巴黎、柏林、迪拜、雅加达、首尔和东京等多个城市。 TikTok研发团队,旨在实现TikTok业务的研发工作,搭建及维护业界领先的产品。加入我们,你能接触到包括用户增长、社交、直播、电商C端、内容创造、内容消费等核心业务场景,支持产品在全球赛道上高速发展;也能接触到包括服务架构、基础技术等方向上的技术挑战,保障业务持续高质量、高效率、且安全地为用户服务;同时还能为不同业务场景提供全面的技术解决方案,优化各项产品指标及用户体验。 在这里, 有大牛带队与大家一同不断探索前沿, 突破想象空间。 在这里,你的每一行代码都将服务亿万用户。在这里,团队专业且纯粹,合作氛围平等且轻松。目前在北京,上海,杭州、广州、深圳分别开放多个岗位机会。 1、保障TikTok核心系统的线上稳定性,对线上事故进行快速响应并建立机制、平台提升处理效率; 2、建设系统质量SLA并通过持续的全方位数据运营,洞察并治理系统风险,提升可靠性、可扩展性以及性能; 3、主导TikTok容灾项目,推进风险评估、容灾设计、容量规划、预案体系建设,全面提升系统容灾容错能力; 4、积累运维最佳实践,为业务架构设计与组件选型提供指导,输出运维技术文档。