字节跳动运维专家-混合云-火山引擎
任职要求
1、本科及以上学历,5年以上云计算相关交付、运维、研发、架构工作经验; 2、扎实的计算机软件基础知识,了解Linux操作系统、网络、存储、容器等相关原理; 3、对云基础、云原生底层技术架构有广泛了解,有多年SRE平台建设、业务运维经验; 4、熟悉一种或多种编程语言,如Python/Go/Java/Shell/C++等; 5、具备较强的沟通、组织协调能力,优秀的问题解决能力,有ToB服务意识; 6、善于系统化思考,能够制定高质量目标,并带领团队实施落地。
工作职责
1、负责售后L1技术能力提升,结合AI工具不断提升工单拦截率和服务满意度; 2、提升售后&运维质量和效率,从业务和技术多重角度,制定并优化相关的运维指标; 3、推动产品稳定性的系统性建设,包括故障预防(演练)、发现、止损、恢复等阶段。
1、负责混合云运维交付团队的搭建和管理,主导混合云产品的交付运维工作; 2、参与运维工具和平台的设计与开发,持续提升运维和交付效率; 3、建立长效机制,识别产品和项目交付或升级中存在的问题并跟进优化。
团队介绍:IaaS字节跳动基础架构IaaS团队致力于不断创新,推动云计算产业发展和IaaS架构演进。作为云计算基座我们服务了字节跳动旗下包括抖音、今日头条、西瓜视频、飞书等明星产品, 并通过火山引擎云基础产品服务外部客户:包括金融、汽车、游戏、电商、社交媒体、高端制造、科研院所等各行各业的丰富场景, 为亿级用户量的APP和ToB业务提供安全、稳定、高性价比的算力。 我们坚持全栈自研,软硬一体,全面拥抱云原生, 在技术上追求极致: -基于智能库存调度、精细化监控以及自动化运维能力, 来管理遍布全球超百万台规模的服务器集群; -自研高吞吐、低延迟、高弹性的网关网元以及高弹性高并发的计算存储服务来应对抖音春晚、双十一等各种流量洪峰; -打造万卡超大规模的GPU集群, 与机器学习平台、火山方舟一起构建了从基础设施到模型生态的完整解决方案; -此外,还提供和火山引擎公有云同源架构的veStack混合云平台,支撑客户的本地化部署和跨云资源的弹性伸缩等。 1、负责大模型训练和推理所需的IaaS基础设施的规划、建设与维护; 2、与业务团队密切合作,支持业务新算法和模型的集成,并优化其在IaaS基础设施上的性能; 3、开发和维护自动化工具,提高大规模模型基础设施的可观测性、可扩展性和可管理性; 4、跟踪业界AI新兴技术和行业趋势,参与新技术的研究与应用,推动基础设施的持续升级。
团队介绍:IaaS字节跳动基础架构IaaS团队致力于不断创新,推动云计算产业发展和IaaS架构演进。作为云计算基座我们服务了字节跳动旗下包括抖音、今日头条、西瓜视频、飞书等明星产品, 并通过火山引擎云基础产品服务外部客户:包括金融、汽车、游戏、电商、社交媒体、高端制造、科研院所等各行各业的丰富场景, 为亿级用户量的APP和ToB业务提供安全、稳定、高性价比的算力。 我们坚持全栈自研,软硬一体,全面拥抱云原生, 在技术上追求极致: -基于智能库存调度、精细化监控以及自动化运维能力, 来管理遍布全球超百万台规模的服务器集群; -自研高吞吐、低延迟、高弹性的网关网元以及高弹性高并发的计算存储服务来应对抖音春晚、双十一等各种流量洪峰; -打造万卡超大规模的GPU集群, 与机器学习平台、火山方舟一起构建了从基础设施到模型生态的完整解决方案; -此外,还提供和火山引擎公有云同源架构的veStack混合云平台,支撑客户的本地化部署和跨云资源的弹性伸缩等。 1、负责大模型训练和推理所需的IaaS基础设施的规划、建设与维护; 2、与业务团队密切合作,支持业务新算法和模型的集成,并优化其在IaaS基础设施上的性能; 3、开发和维护自动化工具,提高大规模模型基础设施的可观测性、可扩展性和可管理性; 4、跟踪业界AI新兴技术和行业趋势,参与新技术的研究与应用,推动基础设施的持续升级。
团队介绍:IaaS字节跳动基础架构IaaS团队致力于不断创新,推动云计算产业发展和IaaS架构演进。作为云计算基座我们服务了字节跳动旗下包括抖音、今日头条、西瓜视频、飞书等明星产品, 并通过火山引擎云基础产品服务外部客户:包括金融、汽车、游戏、电商、社交媒体、高端制造、科研院所等各行各业的丰富场景, 为亿级用户量的APP和ToB业务提供安全、稳定、高性价比的算力。 我们坚持全栈自研,软硬一体,全面拥抱云原生, 在技术上追求极致: -基于智能库存调度、精细化监控以及自动化运维能力, 来管理遍布全球超百万台规模的服务器集群; -自研高吞吐、低延迟、高弹性的网关网元以及高弹性高并发的计算存储服务来应对抖音春晚、双十一等各种流量洪峰; -打造万卡超大规模的GPU集群, 与机器学习平台、火山方舟一起构建了从基础设施到模型生态的完整解决方案; -此外,还提供和火山引擎公有云同源架构的veStack混合云平台,支撑客户的本地化部署和跨云资源的弹性伸缩等。 1、负责大模型训练和推理所需的IaaS基础设施的规划、建设与维护; 2、与业务团队密切合作,支持业务新算法和模型的集成,并优化其在IaaS基础设施上的性能; 3、开发和维护自动化工具,提高大规模模型基础设施的可观测性、可扩展性和可管理性; 4、跟踪业界AI新兴技术和行业趋势,参与新技术的研究与应用,推动基础设施的持续升级。