理想汽车高级 SRE工程师-AI平台
任职要求
1. 熟悉Linux系统、TCP/IP网络协议等计算机基础知识 2. 有强烈的技术热情,工作责任感,精通一门编程语言,Golang优先 3. 较强的问题解决能力,具备出色的沟通能力与团队协作精神 4. 对容器、K8S及ServiceMesh等云原生技术有深入了解和大规模生产实践经验 5. 有丰富的云原生中间件运维经…
工作职责
1. 负责理想汽车AI平台RDMA网络下大规模GPU集群和并行高速存储的运维工作,为业务平台的可用性负责 2. 调查解决大规模GPU集群管理和大规模AI训练情况下遇到的各种系统/稳定性问题,打造自动化,稳定,易于运维的高速网络和超算集群 3. 深入理解业务,推动AI平台在K8S多集群架构、监控平台、日志等方向的云原生架构演进并落地解决方案 4. 持续建设AI平台运维体系、在稳定性建设、故障定位、资源运营等方向,推动运维工作自动化、工程化
1. 系统运维与稳定性体系建设 a. 负责HBase/Lindorm、OceanBase等分布式数据库/存储系统的部署、监控、高可用设计以及故障应急,保障99.999%+稳定性SLA b. 主导存储集群性能调优、容灾方案设计(如多机房容灾、数据备份恢复、全球多活、全球合规存储等),提升系统的健壮性。 c. 深入分析慢查询、热点等疑难场景,输出系统性优化解决方案,并实现平台化落地。 d. 针对业务场景设计存储选型方案,平衡性能、成本与可维护性。 e. 制定存储产品,组件运维、变更SOP,以及容灾演练机制与应急预案。 f. 推动开发团队落地存储使用最佳实践、以及平台能力的持续演进,降低人为故障风险。 2. 智能化运维体系建设 a. 开发运维工具链(如监控告警、自动扩缩容、巡检等),推动运维效率的持续提升。 b. 持续积累沉淀专家经验与知识库,基于RAG等技术完善智能答疑的能力,并协助完成运维智能体的持续构建与优化。 c. 持续探索AI-Agent在存储运维场景的应用与落地,实现故障的自动定位、诊断以及自愈。 d. 持续跟踪HBase、Lindorm、OceanBase等分布式存储领域的前沿技术,主导关键组件的升级与架构演进。
1.负责腾讯云大数据基础运维和客户问题解决,基于腾讯云提供的EMR、Elasticsearch、TCHouse产品,解决客户在产品使用过程中遇到的问题,为客户业务提供最佳服务体验; 2.负责报障大数据产品服务稳定性,包括全局数智化监控、服务架构容灾、容量管理等基础运维能力建设,保障大数据服务SLA; 3.负责运维标准流程规范制定,建设大数据产品运维标准、大数据产品规范化变更流程和大数据组件可观测性标准等; 4.参与智能化运维AIOps,对标互联网SRE业界优秀经验,基于自研运维平台,实现智能化运维,提升运维效率。
1.负责 AI 代码助手平台线上业务系统的日常运维,保障系统 7×24 小时稳定运行; 2.设计并完善 AI 代码助手的监控体系,实时监控系统性能、资源利用率、用户并发连接数等关键指标,通过数据分析提前发现潜在风险并制定解决方案; 3.制定并实施系统可靠性提升方案,优化 AI 代码助手的系统架构与部署,增强系统在高并发场景下的可用性和容错能力; 4.开发和维护自动化运维工具与脚本,实现服务器部署、配置管理、故障处理等运维任务的自动化,提升运维效率; 5.建立并完善应急响应机制,制定应急预案并定期演练,在系统故障时快速响应恢复;深入分析故障,制定改进措施避免复发; 6.结合业务发展和用户增长预测,对 AI 代码助手系统进行容量规划和性能评估,提前调整服务器资源,优化系统性能; 7.负责研发效能提升工作,搭建高效的流水线,实现代码自动化构建、测试与部署,减少人工干预,提升交付速度。