字节跳动SRE AI高级工程师-基础架构
任职要求
1、本科及以上学历,计算机相关专业或具备同等实践经验,拥有五年以上SRE工作经验; 2、熟悉GPU/XPU资源管理和调度,具备大规模高性能计算集群的管理经验; 3、具备深厚的计算机系统基础知识,了解操作系统、存储和网络IO等相关原理; 4、具备以下一项或多项软件开发经验:Go/Python/Java/C++等,能够编写高效、稳定的系统工具和自动化脚本; 5、有丰富的生产环境故障排查和性能调优经验,能够快速定位和解决问题;熟悉AI大模型训练框架(如TensorFlow、PyTorch等),了解大规模分布式训练的实现细节和优化方…
工作职责
1、负责海量高性能GPU/XPU卡的资源交付与一致性保障,涵盖万卡大模型训练、在线推理、在线搜索、推荐训练等不同业务场景的集群管理; 2、学习并深入了解GPU业务方的使用姿势和训练框架,掌握前沿AI大模型技术,解决超大规模场景下的稳定性挑战,涉及NvidiaH100、A100、昇腾、以及自研XPU等高性能卡型的使用; 3、构建自动化工程,确保生产环境的稳定性和资源在线率,及时发现并隔离故障GPU资源,提高资源流转效率; 4、通过优秀的工程架构设计,参与生产集群和服务的整个生命周期,满足可持续发展的需求并提高系统稳定性,包括架构规划、评审、设计、部署和上线等环节。
1、负责海量高性能GPU/XPU卡的资源交付与一致性保障,涵盖万卡大模型训练、在线推理、在线搜索、推荐训练等不同业务场景的集群管理; 2、学习并深入了解GPU业务方的使用姿势和训练框架,掌握前沿AI大模型技术,解决超大规模场景下的稳定性挑战,涉及NvidiaH100、A100、昇腾、以及自研XPU等高性能卡型的使用; 3、构建自动化工程,确保生产环境的稳定性和资源在线率,及时发现并隔离故障GPU资源,提高资源流转效率; 4、通过优秀的工程架构设计,参与生产集群和服务的整个生命周期,满足可持续发展的需求并提高系统稳定性,包括架构规划、评审、设计、部署和上线等环节。
1、负责海量高性能GPU/XPU卡的资源交付与一致性保障,涵盖万卡大模型训练、在线推理、在线搜索、推荐训练等不同业务场景的集群管理; 2、学习并深入了解GPU业务方的使用姿势和训练框架,掌握前沿AI大模型技术,解决超大规模场景下的稳定性挑战,涉及NvidiaH100、A100、昇腾、以及自研XPU等高性能卡型的使用; 3、构建自动化工程,确保生产环境的稳定性和资源在线率,及时发现并隔离故障GPU资源,提高资源流转效率; 4、通过优秀的工程架构设计,参与生产集群和服务的整个生命周期,满足可持续发展的需求并提高系统稳定性,包括架构规划、评审、设计、部署和上线等环节。
1.负责腾讯云大数据基础运维和客户问题解决,基于腾讯云提供的EMR、Elasticsearch、TCHouse产品,解决客户在产品使用过程中遇到的问题,为客户业务提供最佳服务体验; 2.负责报障大数据产品服务稳定性,包括全局数智化监控、服务架构容灾、容量管理等基础运维能力建设,保障大数据服务SLA; 3.负责运维标准流程规范制定,建设大数据产品运维标准、大数据产品规范化变更流程和大数据组件可观测性标准等; 4.参与智能化运维AIOps,对标互联网SRE业界优秀经验,基于自研运维平台,实现智能化运维,提升运维效率。
1.负责 AI 代码助手平台线上业务系统的日常运维,保障系统 7×24 小时稳定运行; 2.设计并完善 AI 代码助手的监控体系,实时监控系统性能、资源利用率、用户并发连接数等关键指标,通过数据分析提前发现潜在风险并制定解决方案; 3.制定并实施系统可靠性提升方案,优化 AI 代码助手的系统架构与部署,增强系统在高并发场景下的可用性和容错能力; 4.开发和维护自动化运维工具与脚本,实现服务器部署、配置管理、故障处理等运维任务的自动化,提升运维效率; 5.建立并完善应急响应机制,制定应急预案并定期演练,在系统故障时快速响应恢复;深入分析故障,制定改进措施避免复发; 6.结合业务发展和用户增长预测,对 AI 代码助手系统进行容量规划和性能评估,提前调整服务器资源,优化系统性能; 7.负责研发效能提升工作,搭建高效的流水线,实现代码自动化构建、测试与部署,减少人工干预,提升交付速度。