字节跳动可靠性架构师 - 火山引擎
任职要求
1、熟悉云基础产品服务架构,对云计算、云网络、存储、云原生有丰富的实践经验;
2、具有互联网基础设施领域平台设计及落地工作:包括但不限于监控体系、DevOps、运维自动化、故障应急联动…工作职责
1、分析和识别云产品服务的稳定性与高可用的薄弱点,掘并抽象故障场景,给出解决方案并推进落地与验证; 2、参与系统性梳理核心系统容灾技术方案,推动和参与核心服务的容灾能力建设; 3、组织大规模线上压测、故障演练、预案演习,使系统能有效治理风险和快速故障应急; 4、建设蓝军能力,负责演练验收能力与工具平台建设,数据化驱动系统容灾容错能力的持续优化。
1、面向公有云场景,与销售、BD、产品研发等部门紧密协同,跟进行业重点客户,推动标准产品或解决方案在客户侧落地; 2、为字节跳动内外部客户提供业务和技术层面的架构咨询服务,理解合作伙伴及客户的业务和功能性需求、非功能性需求、性能和可靠性需求,提供基于火山引擎产品体系的架构设计方案,支持客户或合作伙伴成功地在火山引擎产品上构建上层应用系统和服务; 3、通过对客户业务的深入理解和分析,提炼客户的终极诉求,结合公司产品和技术能力,沉淀行业细分方向的GTM方法论,树立行业标杆案例和典型场景价值案例。
1、负责火山引擎大模型训练和推理系统的研发与性能优化,包括但不限于:模型计算性能优化、千卡训练集群调优、分布式大模型推理系统、大规模推理流量调度等; 2、负责解决系统高并发、高可靠性、高可扩展性等技术难关,支撑火山引擎千亿级别的日均Token训练推理流量; 3、负责大模型训练和推理前瞻性技术架构的调研和引入,技术方案不限于子图匹配、编译优化、模型量化等; 4、负责异构硬件的引入与训练推理框架的集成,包括但不限于GPU、NPU、TPU 等; 5、面向全球多地域超大规模GPU算力集群,通过弹性调度、GPU超卖、任务编排等方式不断提升算力利用率; 6、与算法部门深度合作,进行算法与系统的联合优化。
1、负责火山引擎云原生容器平台产品的稳定性保障,通过平台建设/架构优化/组织提升等手段,不断提升云产品系统稳定性; 2、负责容器平台和大规模容器集群的稳定性保障,完成可靠性分析与优化;深入分析业务架构和系统运行时,持续识别稳定性薄弱环节,负责技术难点的攻坚,提升系统核心链路的整体稳定性; 3、参与火山引擎云原生容器平台产品的运维管控平台规划建设,设计实现相关自动化运维、分析诊断和保障体系,打造面向多地域超大规模集群的自动化运维和管控体系。