logo of bytedance

字节跳动AI平台SRE工程师

社招全职A135284地点:深圳状态:招聘

任职要求


1、本科及以上学历,计算机、软件工程等相关专业优先;
2、熟悉Linux,熟练掌握Mysql/Redis/PostgreSQL/MongoDB等数据库技术原理之一,具备生产问题的快速定位与解决能力;
3、熟悉Python/Golang等开发语言之一;
4、有向量数据库领域工作经验,了解主流向量数据库系统,如Milvus、Faiss、Vector等;
5、熟悉KubernetesDocker、Operator等云原生/容器相关技术;
6、逻辑思维能力强,责任心强,学习能力和钻研精神突出,对技术充满热情,具备快速定位和独立解决问题的能力,以及良好的逻辑表达、沟通和技术文档撰写能力。

加分项:
1、具有公有云或企业私有云平台相关实践经验者优先,有大规模数据库运维经验者优先;
2、有大模型应用平台使用经验者优先,例如:扣子、百炼和千帆等。

工作职责


1、承担AI私有化产品数据库及中间件的运维支持、性能优化、监控与故障诊断等任务;
2、负责AI私有化产品的容量规划、自动化部署、容灾演练,以及故障处理所需工具和系统的开发;
3、推进AI私有化产品的持续集成与交付,实现高效且自动化的运维优化,增强服务的稳定性并提升研发效率。
包括英文材料
学历+
Linux+
MySQL+
Redis+
PostgreSQL+
MongoDB+
Python+
Go+
Faiss+
Kubernetes+
Docker+
大模型+
相关职位

logo of xiaohongshu
社招3年以上运维开发

负责AI平台基础设施的可靠性设计、监控告警、容量规划和性能优化 设计并实施平台的高可用性方案,制定灾备预案和故障响应机制 建立和完善AI平台的可观测性体系,包括日志、metrics、链路追踪等 负责自动化运维工具开发,提升平台运维效率和服务质量 分析和解决系统性能瓶颈,优化资源利用率 参与重大故障定位分析,制定改进方案并跟进落地 持续优化SLO指标,确保平台的稳定性和可靠性

更新于 2025-07-05
logo of xpeng
社招

1. 负责小鹏汽车扶摇AI平台的运维工作,为业务平台的可用性负责 2. 调查解决大规模GPU集群管理和大规模AI训练情况下遇到的各种系统/稳定性问题 3. 持续建设AI平台运维体系、在稳定性建设、故障定位、资源运营等方向,推动运维工作自动化、工程化

更新于 2025-01-23
logo of liauto
社招智能与信息技术

1. 负责理想汽车AI平台RDMA网络下大规模GPU集群和并行高速存储的运维工作,为业务平台的可用性负责 2. 调查解决大规模GPU集群管理和大规模AI训练情况下遇到的各种系统/稳定性问题,打造自动化,稳定,易于运维的高速网络和超算集群 3. 深入理解业务,推动AI平台在K8S多集群架构、监控平台、日志等方向的云原生架构演进并落地解决方案 4. 持续建设AI平台运维体系、在稳定性建设、故障定位、资源运营等方向,推动运维工作自动化、工程化

logo of bytedance
社招A194327C

1、承担AI私有化产品数据库及中间件的运维支持、性能优化、监控与故障诊断等任务; 2、负责AI私有化产品的容量规划、自动化部署、容灾演练,以及故障处理所需工具和系统的开发; 3、推进AI私有化产品的持续集成与交付,实现高效且自动化的运维优化,增强服务的稳定性并提升研发效率。

更新于 2025-03-13