字节跳动平台型高效SRE专家
任职要求
1、计算机相关专业,本科及以上学历; 2、3年以上大数据领域SRE运维、ToB产品技术支持相关工作经验; 3、熟悉一个或多个开源组件,如Hadoop/Spark/Flink/Hive/Presto/Trino/Doris/Kafka/HBase/Hudi/ClickHouse等;熟悉一个或多个业内大数据平台产品,如Ambari、CDH、AWS EMR等; 4、对大数据产品问题排查有实际的工作经验,面对线上大数据产品问题有自己的一套排查思路,具备快速定位问题能力; 5、熟悉至少一门编程语言,包括但不限于:Shell、Python、Java、Scala、Go等;具备良好的沟通表达、团队协作以及自驱能力,不断提升改进自己; 6、加分项:具备ToB大数据交付实施方案设计与解决方案设计能力。
工作职责
1、负责字节跳动数据平台开发套件DataLeap稳定性保障、从发现、止血与恢复链路运维体系建设,保障业务连续性; 2、负责字节跳动自研大数据产品以及开源产品的自动化运维,提升交付、运维与技术支持的效能; 3、负责沉淀大数据运维经验向文档化、工具化以及标准化推进,促进字节跳动大数据平台运维效能与安全生产。
1.负责理想汽车软件、芯片研发基础设施的运营管理,保障核心应用的稳定可靠运行,结合业界技术演进迭代基础设施架构,通过规范化、标准化、自动化、智能化等手段不断提升运营效率和服务质量。 2.研发构建核心基础设施工具链,以及相应监控、配置、日志、智能化运营(AIOps)能力建设,制定业务相关的运维技术方案,确保业务高效稳定的运行。 3.负责服务的容量规划和预测,软件的性能分析以及系统调优,软硬件系统的采购与服务部署等。 4.负责高可用和可观测体系建设,制定如全链路监控、故障定位、自动恢复、异地容灾等方案并落地实施,保障业务持续可用。 5.和算法、工程团队协同完成研发基础设施的智能化改造,构建新一代 AI 友好型研发基础设施。 6.负责技术运营(SRE)团队的日常管理,带领团队达成业务建设目标。
1.负责理想汽车软件、芯片研发基础设施的运营管理,保障核心应用的稳定可靠运行,结合业界技术演进迭代基础设施架构,通过规范化、标准化、自动化、智能化等手段不断提升运营效率和服务质量。 2.研发构建核心基础设施工具链,以及相应监控、配置、日志、智能化运营(AIOps)能力建设,制定业务相关的运维技术方案,确保业务高效稳定的运行。 3.负责服务的容量规划和预测,软件的性能分析以及系统调优,软硬件系统的采购与服务部署等。 4.负责高可用和可观测体系建设,制定如全链路监控、故障定位、自动恢复、异地容灾等方案并落地实施,保障业务持续可用。 5.和算法、工程团队协同完成研发基础设施的智能化改造,构建新一代 AI 友好型研发基础设施。
1. 收集、识别、分析集团型客户用云需求或业务痛点,主导设计有竞争力的解决方案,并端到端拉通产研团队完成方案的落地与交付 2. 参与重要站点的建设及资源交付,包括但不限于通算、智算等新机型新规格的三新定义及交付,专属region或az的建设基线制定及交付等 3. 参与集团型客户用云日常及大促活动的稳定性保障,包括但不限于云底座高可用架构优化、云产品及基础设施可观测、业务容灾演练等 4. 面向集团型客户提供用云关键技术咨询或答疑,定期推介分享新技术云产品,帮助客户业务更好的上云和用云 5. 识别提炼客户共性需求,反哺产品设计,推动产品改进,或孵化新产品新功能,或沉淀场景化解决方案,提升云产品技术竞争力