理想汽车高级 SRE工程师-AI平台
社招全职智能与信息技术地点:北京状态:招聘
任职要求
1. 熟悉Linux系统、TCP/IP网络协议等计算机基础知识 2. 有强烈的技术热情,工作责任感,精通一门编程语言,Golang优先 3. 较强的问题解决能力,具备出色的沟通能力与团队协作精神 4. 对容器、K8S及ServiceMesh等云原生技术有深入了解和大规模生产实践经验 5. 有丰富的云原生中间件运维经验,对常见的系统隐患、系统故障有系统性总结和实际处理经验 加分项: 1. 有丰富的AI相关经验,有大规模GPU集群、RDMA网络运维经验优先 2. 熟悉kubeflow、istio、karmada、prometheus、loki等项目优先 3. 有IB,RoCE等RDMA网络下,大规模GPU/并行存储集群的运维经验
工作职责
1. 负责理想汽车AI平台RDMA网络下大规模GPU集群和并行高速存储的运维工作,为业务平台的可用性负责 2. 调查解决大规模GPU集群管理和大规模AI训练情况下遇到的各种系统/稳定性问题,打造自动化,稳定,易于运维的高速网络和超算集群 3. 深入理解业务,推动AI平台在K8S多集群架构、监控平台、日志等方向的云原生架构演进并落地解决方案 4. 持续建设AI平台运维体系、在稳定性建设、故障定位、资源运营等方向,推动运维工作自动化、工程化
包括英文材料
Linux+
https://ryanstutorials.net/linuxtutorial/
Ok, so you want to learn how to use the Bash command line interface (terminal) on Unix/Linux.
https://ubuntu.com/tutorials/command-line-for-beginners
The Linux command line is a text interface to your computer.
https://www.youtube.com/watch?v=6WatcfENsOU
In this Linux crash course, you will learn the fundamental skills and tools you need to become a proficient Linux system administrator.
https://www.youtube.com/watch?v=v392lEyM29A
Never fear the command line again, make it fear you.
https://www.youtube.com/watch?v=ZtqBQ68cfJc
TCP/IP+
[英文] What is TCP/IP?
https://www.techtarget.com/searchnetworking/definition/TCP-IP
TCP/IP stands for Transmission Control Protocol/Internet Protocol and is a suite of communication protocols used to interconnect network devices on the internet.
Go+
https://www.youtube.com/watch?v=8uiZC0l4Ajw
学习Golang的完整教程!从开始到结束不到一个小时,包括如何在Go中构建API的完整演示。没有多余的内容,只有你需要知道的知识。
Kubernetes+
https://kubernetes.io/docs/tutorials/kubernetes-basics/
This tutorial provides a walkthrough of the basics of the Kubernetes cluster orchestration system.
https://kubernetes.io/zh-cn/docs/tutorials/kubernetes-basics/
本教程介绍 Kubernetes 集群编排系统的基础知识。每个模块包含关于 Kubernetes 主要特性和概念的一些背景信息,还包括一个在线教程供你学习。
https://www.youtube.com/watch?v=s_o8dwzRlu4
Hands-On Kubernetes Tutorial | Learn Kubernetes in 1 Hour - Kubernetes Course for Beginners
https://www.youtube.com/watch?v=X48VuDVv0do
Full Kubernetes Tutorial | Kubernetes Course | Hands-on course with a lot of demos
中间件+
https://www.youtube.com/watch?v=1oWPUpMheGk
Kubeflow+
https://huggingface.co/blog/turhancan97/building-your-first-kubeflow-pipeline
Kubeflow is an open-source platform designed to be end-to-end, facilitating each step of the Machine Learning (ML) workflow.
https://www.kubeflow.org/docs/started/introduction/
Kubeflow is the foundation of tools for AI Platforms on Kubernetes.
https://www.youtube.com/watch?v=6wWdNg0GMV4
In this walk-through I will show you how I've created a machine learning pipeline with Kubeflow 1.5 using Juypter Notebooks, Kubeflow pipelines, MinIO and Kserve.
Istio+
https://istio.io/latest/docs/examples/microservices-istio/
This modular tutorial provides new users with hands-on experience using Istio for common microservices scenarios, one step at a time.
https://www.freecodecamp.org/news/learn-istio-manage-microservices/
In a world without Istio, one service makes direct requests to another and in case of failures, the service is responsible for handling those.
Prometheus+
https://grafana.com/docs/grafana/latest/getting-started/get-started-grafana-prometheus/
Prometheus is an open source monitoring system for which Grafana provides out-of-the-box support.
https://prometheus.io/docs/tutorials/getting_started/
Prometheus is a system monitoring and alerting system.
相关职位
社招
1. 负责小鹏汽车扶摇AI平台的运维工作,为业务平台的可用性负责 2. 调查解决大规模GPU集群管理和大规模AI训练情况下遇到的各种系统/稳定性问题 3. 持续建设AI平台运维体系、在稳定性建设、故障定位、资源运营等方向,推动运维工作自动化、工程化
更新于 2025-01-23
社招3年以上CSIG技术
1.负责 AI 代码助手平台线上业务系统的日常运维,保障系统 7×24 小时稳定运行; 2.设计并完善 AI 代码助手的监控体系,实时监控系统性能、资源利用率、用户并发连接数等关键指标,通过数据分析提前发现潜在风险并制定解决方案; 3.制定并实施系统可靠性提升方案,优化 AI 代码助手的系统架构与部署,增强系统在高并发场景下的可用性和容错能力; 4.开发和维护自动化运维工具与脚本,实现服务器部署、配置管理、故障处理等运维任务的自动化,提升运维效率; 5.建立并完善应急响应机制,制定应急预案并定期演练,在系统故障时快速响应恢复;深入分析故障,制定改进措施避免复发; 6.结合业务发展和用户增长预测,对 AI 代码助手系统进行容量规划和性能评估,提前调整服务器资源,优化系统性能; 7.负责研发效能提升工作,搭建高效的流水线,实现代码自动化构建、测试与部署,减少人工干预,提升交付速度。
更新于 2025-05-20
社招3年以上技术类-开发
- 建设复杂微服务场景下,基于AI的线上运维体系,提升异常发现和恢复能力; - 建设地理位置信息场景下的通用缓存和降级能力,支撑海量地理数据的容灾能力; - 建设高质量红蓝攻防演练平台,提升真实线上场景的演练效率和覆盖; - 建设高效的评测平台,满足业务需求的同时,提升评测效率;
更新于 2025-07-17