字节跳动SRE AI高级工程师-基础架构

社招全职5年以上A793982025-05-20地点：杭州状态：招聘

扫码手机上打开

任职要求

1、本科及以上学历，计算机相关专业或具备同等实践经验，拥有五年以上SRE工作经验；
2、熟悉GPU/XPU资源管理和调度，具备大规模高性能计算集群的管理经验；
3、具备深厚的计算机系统基础知识，了解操作系统、存储和网络IO等相关原理；
4、具备以下一项或多项软件开发经验：Go/Python/Java/C++等，能够编写高效、稳定的系统工具和自动化脚本；
5、有丰富的生产环境故障排查和性能调优经验，能够快速定位和解决问题；熟悉AI大模型训练框架（如TensorFlow、PyTorch等），了解大规模分布式训练的实现细节和优化方…

登录查看完整任职要求

微信扫码，1秒登录

工作职责

1、负责海量高性能GPU/XPU卡的资源交付与一致性保障，涵盖万卡大模型训练、在线推理、在线搜索、推荐训练等不同业务场景的集群管理；
2、学习并深入了解GPU业务方的使用姿势和训练框架，掌握前沿AI大模型技术，解决超大规模场景下的稳定性挑战，涉及NvidiaH100、A100、昇腾、以及自研XPU等高性能卡型的使用；
3、构建自动化工程，确保生产环境的稳定性和资源在线率，及时发现并隔离故障GPU资源，提高资源流转效率；
4、通过优秀的工程架构设计，参与生产集群和服务的整个生命周期，满足可持续发展的需求并提高系统稳定性，包括架构规划、评审、设计、部署和上线等环节。

📮 投递简历 ✨AI模拟面试

难度：

包括英文材料

学历+

Go+

Python+

Java+

C+++

脚本+

性能调优+

还有更多 •••

登录查看完整学习资料

相关职位

SRE AI高级工程师-基础架构

社招5年以上A118276A

1、负责海量高性能GPU/XPU卡的资源交付与一致性保障，涵盖万卡大模型训练、在线推理、在线搜索、推荐训练等不同业务场景的集群管理； 2、学习并深入了解GPU业务方的使用姿势和训练框架，掌握前沿AI大模型技术，解决超大规模场景下的稳定性挑战，涉及NvidiaH100、A100、昇腾、以及自研XPU等高性能卡型的使用； 3、构建自动化工程，确保生产环境的稳定性和资源在线率，及时发现并隔离故障GPU资源，提高资源流转效率； 4、通过优秀的工程架构设计，参与生产集群和服务的整个生命周期，满足可持续发展的需求并提高系统稳定性，包括架构规划、评审、设计、部署和上线等环节。

更新于 2025-04-22上海

SRE AI高级工程师-基础架构

社招5年以上A161065A

更新于 2025-04-22北京

腾讯云大数据-高级大数据技术服务工程师-内核专家/平台开发

社招5年以上腾讯云技术

1.负责腾讯云大数据基础运维和客户问题解决,基于腾讯云提供的EMR、Elasticsearch、TCHouse产品，解决客户在产品使用过程中遇到的问题，为客户业务提供最佳服务体验； 2.负责报障大数据产品服务稳定性，包括全局数智化监控、服务架构容灾、容量管理等基础运维能力建设，保障大数据服务SLA； 3.负责运维标准流程规范制定，建设大数据产品运维标准、大数据产品规范化变更流程和大数据组件可观测性标准等； 4.参与智能化运维AIOps，对标互联网SRE业界优秀经验，基于自研运维平台，实现智能化运维，提升运维效率。

更新于 2025-08-05上海

腾讯云AI代码助手-高级SRE工程师

社招3年以上CSIG技术

1.负责 AI 代码助手平台线上业务系统的日常运维，保障系统 7×24 小时稳定运行； 2.设计并完善 AI 代码助手的监控体系，实时监控系统性能、资源利用率、用户并发连接数等关键指标，通过数据分析提前发现潜在风险并制定解决方案； 3.制定并实施系统可靠性提升方案，优化 AI 代码助手的系统架构与部署，增强系统在高并发场景下的可用性和容错能力； 4.开发和维护自动化运维工具与脚本，实现服务器部署、配置管理、故障处理等运维任务的自动化，提升运维效率； 5.建立并完善应急响应机制，制定应急预案并定期演练，在系统故障时快速响应恢复；深入分析故障，制定改进措施避免复发； 6.结合业务发展和用户增长预测，对 AI 代码助手系统进行容量规划和性能评估，提前调整服务器资源，优化系统性能； 7.负责研发效能提升工作，搭建高效的流水线，实现代码自动化构建、测试与部署，减少人工干预，提升交付速度。

更新于 2025-05-20西安