字节跳动SRE运维工程师-广告业务
任职要求
1、本科及以上学历,计算机、软件工程等相关专业,具备扎实的计算机基础; 2、深入了解报警监控、容灾架构、成本运营等SRE工程领域知识并具有实践经验; 3、熟悉Linux操作系统和开发环境,熟悉Shell/Python/Java…
工作职责
1、支持抖音集团广告系统的稳定性建设,保障系统持续、稳定运行; 2、参与广告系统稳定性架构设计,保障系统的长期高可用与可维护; 3、参与广告系统机房建设,容灾方案设计、演练和实施; 4、参与广告系统的机器资源管理与规划,通过运营机制和优化手段提升资源效率; 5、参与广告系统运维工作自动化,涵盖线上变更、服务监控配置、快速建站部署、资源管理等专项。
1、负责字节跳动海内外广告系统的稳定性,保障系统持续、稳定运行; 2、参与广告系统稳定性架构设计,保障系统的长期高可用和可维护; 3、负责广告系统的容灾方案设计、演练和实施; 4、负责广告系统的机器资源管理与规划,提升资源效率; 5、负责广告系统运维工作自动化,包括线上变更、服务监控配置、资源管理等。
1.负责广告模型平台的系统稳定性和高可用性,确保平台在高并发和大流量下的稳定运行,设计和实施监控、报警和自动化运维平台建设等,及时发现和解决系统问题; 2.负责系统故障的快速定位和修复,制定并执行应急预案,确保业务连续性,参与故障复盘,分析根本原因,提出改进措施,防止类似问题再次发生; 3.开发和维护自动化运维平台与工具,提高运维效率,减少人为操作失误。进行资源使用优化,提高资源利用率,提升系统性能; 4.负责广告模型平台资源规划和管理,确保资源的合理分配和高效利用,进行资源成本分析,监控和评估资源使用情况,提出成本优化方案,同时能结合业界硬件演进roadmap与技术平台需求不断推动最优配置选型与迭代。
1.负责大模型服务的稳定性和高可用性,确保平台在高并发和大流量下的稳定运行,设计和实施监控、报警和自动化运维平台建设等,及时发现和解决问题; 2.负责故障的快速定位和修复,制定并执行应急预案,确保业务连续性,参与故障复盘,分析根本原因,提出改进措施,防止类似问题再次发生; 3.开发和维护自动化运维平台与工具,提高运维效率,减少人为操作失误。进行资源使用优化,提高资源利用率,提升系统性能; 4.分析和深入发掘现有系统的不足,数据驱动找到薄弱点,推动系统优化落地改进; 5.负责资源规划和管理,确保资源的合理分配和高效利用,进行资源成本分析,监控和评估资源使用情况,提出成本优化方案,同时能结合业界硬件演进roadmap与技术平台需求不断推动最优配置选型与迭代。
团队介绍:AML是字节跳动公司的机器学习中台,为抖音/今日头条/西瓜视频等业务提供推荐/广告/CV/语音/NLP的训练和推理系统。为公司内业务部门提供强大的机器学习算力,并在这些业务的问题上研究一些具有通用性和创新性的算法。同时,也通过火山引擎将一些机器学习/推荐系统的核心能力提供给外部企业客户。此外,AML还在AI for Science,科学计算等领域做一些前沿研究。 1、负责机器学习系统的稳定运转,支持模型开发、训练与部署; 2、负责GPU/NPU/CPU和存储等资源的管理与规划、成本与预算; 3、负责多地域、多机房的系统容灾、服务部署管理和集群机器治理; 4、开发自动化工具或平台,提升资源利用率和运维人效。