
同程旅行SRE工程师
任职要求
1、2年以上运维工作经验,本科或以上学历,计算机相关专业优先; 2、 熟练掌握 Linux,熟悉计算机网络和操作系统相关基础知识; 3、至少了解一门脚本语言(Bash、Python、Golang); 4、…
工作职责
团队介绍: 我们始终秉承着7*24保障为先的信念,安全、服务、稳定是我们坚守的目标,让系统可用率达到99.99%是我们永恒的使命!团队秉承简单、开放、匠心的文化,齐心协力,内外赋能,一起为梦想而努力! 1)团队年轻化,管理扁平化,事情推动效率高; 2)团队的学习分享氛围好,成长空间大、成长快; 在这里你能获得: 一群真诚、友善的伙伴, 一个能共同成长,在一起,向前冲的团队, 一个可以把前沿技术实践到工作中的机会, 这里既有技术成长、又有业务成长,这里没有甩锅、没有PUA! 岗位职责: 1. 负责同程旅行核心服务可靠、稳定、高效运行; 2. 负责相关服务架构审核、配置管理、业务监控、容量规划、性能优化、应急响应等; 3. 负责分析相关系统的稳定性、性能问题,提出优化方案并推动实施; 4. 负责突发事件管理,问题跟踪追查;能够运用主机监控、日志分析、APM、trace等工具进行复杂问题定位; 5. 参与日常值班轮转,响应和处理严重、复杂应用故障; 6. 参与设计、开发提高同程旅行稳定性、工程效率、资源效率的相关运维自动化工具与平台。
-负责百度云CDN&边缘计算平台的资源交付、容量管理及大规模分布式集群的架构设计工作,构建行业领先的资源平台 -负责百度云CDN&边缘计算自动化运维平台发布实践、实现CI/CD全流程管控,打造智能化运维平台提升效率及产品服务稳定性 -负责百度云CDN&边缘计算业务运营、指标体系建设 -负责百度云CDN&边缘计算大客户解决方案落地及质量调优工作
1、承担MaxCompute管控系统架构师角色,负责产品技术架构演进方向 2、面向全球不同客户设计合理的产品方案,梳理存储、计算、售卖、控制台、运维体系架构,确定技术方案选型 3、承担MaxCompute管控系统设计、研发、测试、发布与运维 4、与MaxCompute各研发团队+SRE中台团队+阿里云售卖平台配合,共同推进技术项目按要求落地
1、负责支撑网易集团旗下云音乐、Loft、支付等互联网产品的运维工作(涵盖操作系统运维、系统运维、容器运维等多个层面的工作),帮助业务持续提升产品稳定性; 2、负责相关运维工具和平台研发,通过工具和平台将运维能力赋能给外部其他团队,帮助其他团队提升效率; 3、关注业界前沿技术动态,通过新的运维技术和方法解决线上问题,提升团队运维质量; 4、持续优化运维操作和流程,保障海量用户的互联网产品稳定运行。
-负责金融联合建模产品各类在线服务和自动化工具开发,保障服务可靠、稳定、高效运行,保障服务稳定性和数据质量,保障产品SLA -基于百度已有基础设施设计金融联合建模相关在线服务稳定性解决方案,包括预防、止损、降级、容量管理、弹性部署、故障分析、流量分配、性能调优等方案 -参与金融联合建模产品各类在线服务和各类模型产品部署运行架构设计,主导服务可靠性相关自动化系统的实现,满足严格的质量与效率要求 -利用百度已有基础设施和开源技术设计和实施产品监控系统、容灾策略和灾难恢复预案,响应和处理生产环境中的紧急事件,最小化服务中断 -关注业界前沿技术动态,负责大规模机器学习模型在线预测系统优化,演进和新接入技术探索和应用