logo of tuhu

途虎养车运维开发专家

社招全职5年以上技术地点:上海状态:招聘

任职要求


1、计算机相关专业本科及以上学历,5年以上运维开发或开发经历;
2、优秀的编程能力,具备3年以上pythongo开发经验,至少熟悉flask/django/Tornado等任意一种python web框架;
3、熟悉Web前端htmljs,css前端开发语言,熟悉VUEReact前端框架;熟悉运维常见组件如LB、DNS、PrometheusGrafana等;
4、有从0到1构建运维平台的完整经历,具有运维自动化、监控系统、K8S等运维开发经验者;
5、良好的沟通,很强的责任意识,优秀的学习能力,关注业界前沿技术,并推动适合的技术应用于生产。

工作职责


1、负责运维自动化、可观测性、GPU算力等平台能力的建设;
2、运用大数据、算法、智能AI等技术,实现运维故障定位、根因分析、自愈恢复和事后跟踪评估等能力;
3、完善现有运维管理自动化工作流程和方法,不断迭代实现运维交付工具的集成,提升运维及研发效率;
包括英文材料
学历+
Python+
Go+
Flask+
Django+
Tornado+
Web+
HTML+
JavaScript+
CSS+
前端开发+
Vue+
React+
Prometheus+
Grafana+
Kubernetes+
相关职位

logo of aliyun
社招5年以上技术类-开发

1、设计和实现高性能、可靠的对象存储系统,满足大规模数据存储和访问需求; 2、负责对象存储系统核心功能的研发,包括数据存储、数据访问、数据迁移复制等; 3、制定稳定性策略,寻找并解决产品系统中的潜在风险和瓶颈,覆盖线上疑问,保障系统安全可靠。运用产品优化技术和方法,进行性能优化。 4、分析用户需求,优化存储系统架构,提高系统的扩展性、灵活性和可维护性; 5、负责对象存储相关工具和平台的开发,提升对象存储系统的高运维性。

更新于 2025-04-15
logo of aliyun
社招5年以上技术类-开发

主要负责赤骥运维管控核心系统的的设计、开发工作,制定1-2年技术演进路线并实施以保持技术先进性,进而保障超大规模分布式存储系统的稳定性。包括但不限于: 1、构建安全合规的可观测系统,包括机器、网络、用户、业务指标等各类监控,提供秒级的响应报警,并进行智能分析及根因定位。 2、基于跨区域容灾的运维资产管理能力,以及智能检测熔断能力,进行超大规模分布式系统的变更管控,提供稳定安全的发布变更系统。 3、深入理解所负责系统的结构和隐藏问题,能够制定具体的方案改进,保持系统的稳定性和可维护性。

更新于 2025-04-15
logo of kuaishou
社招3年以上D7209

1、负责公司数万节点大数据集群的各项运维管理工作,保障集群服务的高可用性运行; 2、负责超大规模集群服务运维管理平台的设计与研发工作,保障集群服务版本高速迭代以及变更的风险控制; 3、负责集群服务的监控报警体系规划与产品研发迭代,推进监控报警有效性与智能化; 4、负责集群服务容量规划、服务管理与治理规划与产品研发迭代工作。

更新于 2025-04-28
logo of bytedance
社招A224433

1、主导业界领先的大数据研发平台的设计与研发,包括智能数据开发 & 运维平台、高性能分布式调度系统等; 2、深入理解业务场景,设计合理架构,支持包括抖音、头条等在内的全球业务; 3、探索大数据研发前沿方向,参与需求、产品讨论,确定中长期演进方向。

更新于 2023-07-17