logo of bytedance

字节跳动AI平台SRE工程师

社招全职A135284地点:深圳状态:招聘

任职要求


1、本科及以上学历,计算机、软件工程等相关专业优先;
2、熟悉Linux,熟练掌握Mysql/Redis/PostgreSQL/MongoDB等数据库技术原理之一,具备生产问题的快速定位与解决能力;
3、熟悉Python/Golang等开发语言之一;
4、有向量数据库领域工作经验,了解主流向量数据库系统,如Milvus、Faiss、Vector等;
5、熟悉Kubern…
登录查看完整任职要求
微信扫码,1秒登录

工作职责


1、承担AI私有化产品数据库及中间件的运维支持、性能优化、监控与故障诊断等任务;
2、负责AI私有化产品的容量规划、自动化部署、容灾演练,以及故障处理所需工具和系统的开发;
3、推进AI私有化产品的持续集成与交付,实现高效且自动化的运维优化,增强服务的稳定性并提升研发效率。
包括英文材料
学历+
Linux+
MySQL+
Redis+
PostgreSQL+
MongoDB+
还有更多 •••
相关职位

logo of xiaohongshu
社招3年以上运维开发

负责AI平台基础设施的可靠性设计、监控告警、容量规划和性能优化 设计并实施平台的高可用性方案,制定灾备预案和故障响应机制 建立和完善AI平台的可观测性体系,包括日志、metrics、链路追踪等 负责自动化运维工具开发,提升平台运维效率和服务质量 分析和解决系统性能瓶颈,优化资源利用率 参与重大故障定位分析,制定改进方案并跟进落地 持续优化SLO指标,确保平台的稳定性和可靠性

更新于 2025-07-05北京|上海|杭州
logo of xpeng
社招

1. 负责小鹏汽车扶摇AI平台的运维工作,为业务平台的可用性负责 2. 调查解决大规模GPU集群管理和大规模AI训练情况下遇到的各种系统/稳定性问题 3. 持续建设AI平台运维体系、在稳定性建设、故障定位、资源运营等方向,推动运维工作自动化、工程化

更新于 2025-01-23广州|北京
logo of liauto
社招智能与信息技术

1. 负责理想汽车AI平台RDMA网络下大规模GPU集群和并行高速存储的运维工作,为业务平台的可用性负责 2. 调查解决大规模GPU集群管理和大规模AI训练情况下遇到的各种系统/稳定性问题,打造自动化,稳定,易于运维的高速网络和超算集群 3. 深入理解业务,推动AI平台在K8S多集群架构、监控平台、日志等方向的云原生架构演进并落地解决方案 4. 持续建设AI平台运维体系、在稳定性建设、故障定位、资源运营等方向,推动运维工作自动化、工程化

北京
logo of bytedance
社招A194327C

1、承担AI私有化产品数据库及中间件的运维支持、性能优化、监控与故障诊断等任务; 2、负责AI私有化产品的容量规划、自动化部署、容灾演练,以及故障处理所需工具和系统的开发; 3、推进AI私有化产品的持续集成与交付,实现高效且自动化的运维优化,增强服务的稳定性并提升研发效率。

更新于 2025-03-13上海