快手运维开发工程师-【社科】
任职要求
1、本科及以上学历,3年以上运维开发或应用运维经验; 2、熟悉RedHatCentOSFedora操作系统原理,TCPIP以及常用的网络协议; 3、熟悉shell,python,php,java至少一种开发语言,有相关开发经验; 4、熟悉MySQL,Redis,Memcache等系统的操作和维护(或者擅长其中一项); 5、或者有日志处理及分析相关经验,熟悉相关的组件,如:kafka,elk,flume,hive,storm,HDFS等; 6、熟悉自动化运维管理工具(puppet/saltstack/ansible)。
工作职责
1、负责快手大规模分布式系统及在线服务可靠、稳定、高效运行; 2、制定和优化运维解决方案,包括但不限于柔性容灾、智能调度、弹性扩容与防攻击; 3、设计及开发包括网站加速、持续交付、容量管理、弹性计算、故障分析、流量分配、性能调优等系统; 4、关注业界前沿接入技术动态,负责超大规模流量接入系统的优化,演进和新接入技术探索和应用; 5、参与在线系统和各类产品架构设计及自动化系统的实现,满足严格的质量与效率要求。
1、负责快手大规模分布式系统及在线服务可靠、稳定、高效运行; 2、制定和优化运维解决方案,包括但不限于柔性容灾、智能调度、弹性扩容与防攻击; 3、设计及开发包括网站加速、持续交付、容量管理、弹性计算、故障分析、流量分配、性能调优等系统; 4、关注业界前沿接入技术动态,负责超大规模流量接入系统的优化,演进和新接入技术探索和应用; 5、参与在线系统和各类产品架构设计及自动化系统的实现,满足严格的质量与效率要求。
1.负责超大规模生产k8s集群运维平台开发,不限于(部署、升级、配置、节点、网络、权限,ebpf可观测)等运维功能平台化开发 2. 按照项目计划,按时提交高质量代码,完成开发任务; 3. 规范文档的编写、维护,以及其他与项目相关工作;
参与美团自动车配送系统的稳定性保障工作,设计并交付涵盖软硬件、自动驾驶行为及配送运营全场景的基础运维解决方案,确保系统高效稳定运行。 负责自动车及配送系统的故障发现与处置的设计与规划提升故障的主动监测与召回能力,设计并开发故障处置工具提升故障和事故的处理效率,建设系统的快速恢复能力。 参与自动车配送系统的可靠性和系统安全的数据分析、问题诊断及架构剖析,跟踪问题和缺陷的修复闭环,不断提升自动驾驶系统的可靠性与安全性。 与产品、研发、运营等团队紧密对接,提高自动车配送系统的研发迭代效率,推动规模化运营能力建设,持续优化系统性能与运营效率,支持业务的快速发展。
阿里云持续推进AI 技术深化战略布局, 围绕AI 和云计算的基础设施建设、AI基础模型平台、企业级AI应用方向构建核心场景。为此,我们正积极招募优秀人才: 我们用代码守护阿里云的业务稳定性,用平台能力降本提效。 我们设计并开发端到端的解决方案,包括网站加速、持续交付、容量管理、弹性伸缩、监控快恢、流量调度、性能优化等。 我们希望你,喜欢折腾操作系统、命令行、各端新技术; 我们希望你,鄙视重复,鄙视救火式的解决问题,以自动化为荣,以建设和实现真正的AI运维为追求; 我们希望你能站在全站的的高度,借助最前沿的运维技术和理念,通过工具创新、升级架构和方法,努力提升全站的稳定性及运维可靠性; 我们希望你能够站在用户的角度,不断完善产品的用户体验,影响到我们亿万的用户和消费者,让他们受益。