理想汽车高级 SRE工程师-AI平台

社招全职智能与信息技术地点：北京状态：招聘

扫码手机上打开

任职要求

1. 熟悉Linux系统、TCP/IP网络协议等计算机基础知识
2. 有强烈的技术热情，工作责任感，精通一门编程语言，Golang优先
3. 较强的问题解决能力，具备出色的沟通能力与团队协作精神
4. 对容器、K8S及ServiceMesh等云原生技术有深入了解和大规模生产实践经验
5. 有丰富的云原生中间件运维经…

登录查看完整任职要求

微信扫码，1秒登录

工作职责

1. 负责理想汽车AI平台RDMA网络下大规模GPU集群和并行高速存储的运维工作，为业务平台的可用性负责
2. 调查解决大规模GPU集群管理和大规模AI训练情况下遇到的各种系统/稳定性问题，打造自动化，稳定，易于运维的高速网络和超算集群
3. 深入理解业务,推动AI平台在K8S多集群架构、监控平台、日志等方向的云原生架构演进并落地解决方案
4. 持续建设AI平台运维体系、在稳定性建设、故障定位、资源运营等方向，推动运维工作自动化、工程化

📮 投递简历 ✨AI模拟面试

难度：

包括英文材料

Linux+

TCP/IP+

Go+

Kubernetes+

还有更多 •••

登录查看完整学习资料

相关职位

算力平台高级SRE工程师

社招

1. 负责小鹏汽车扶摇AI平台的运维工作，为业务平台的可用性负责 2. 调查解决大规模GPU集群管理和大规模AI训练情况下遇到的各种系统/稳定性问题 3. 持续建设AI平台运维体系、在稳定性建设、故障定位、资源运营等方向，推动运维工作自动化、工程化

更新于 2025-01-23广州|北京

腾讯云AI代码助手-高级SRE工程师

社招3年以上CSIG技术

1.负责 AI 代码助手平台线上业务系统的日常运维，保障系统 7×24 小时稳定运行； 2.设计并完善 AI 代码助手的监控体系，实时监控系统性能、资源利用率、用户并发连接数等关键指标，通过数据分析提前发现潜在风险并制定解决方案； 3.制定并实施系统可靠性提升方案，优化 AI 代码助手的系统架构与部署，增强系统在高并发场景下的可用性和容错能力； 4.开发和维护自动化运维工具与脚本，实现服务器部署、配置管理、故障处理等运维任务的自动化，提升运维效率； 5.建立并完善应急响应机制，制定应急预案并定期演练，在系统故障时快速响应恢复；深入分析故障，制定改进措施避免复发； 6.结合业务发展和用户增长预测，对 AI 代码助手系统进行容量规划和性能评估，提前调整服务器资源，优化系统性能； 7.负责研发效能提升工作，搭建高效的流水线，实现代码自动化构建、测试与部署，减少人工干预，提升交付速度。

更新于 2025-05-20西安

阿里云智能-VPC高性能网络SRE高级开发工程师-杭州

社招3年以上云智能集团

1. 负责阿里云云网络运维及稳定性能力建设，包括机制流程建设、风险运营、稳定性平台设计和开发等，保证阿里云云网络平稳可靠运行； 2. 负责设计并开发自动化运维工具链，通过AIOps技术优化VPC及公网产品的运维流程，输出标准化SRE工具，提升运维效能； 3. 负责线上紧急问题的快速响应，组织应急、实现线上问题的快速止血和逃逸，推动故障复盘与根因改进，沉淀应急处理SOP与灾备预案； 4. 负责云网络VPC和公网产品的线上运维和内部运营工作，搭建内部运营平台，实现工单、风险、缺陷等运营的标准化与自动化。

更新于 2025-12-12杭州

菜鸟-高级Java研发工程师-测试工具方向

社招3年以上技术类-开发

在菜鸟集团，我们致力于通过 AI 技术重塑软件研发与质量保障体系。作为 AI 研发效能平台的核心成员，你将聚焦于利用 AI Agent 技术重构传统测试流程，打造智能化、自动化、自适应的新一代测试工具链。你将参与构建基于大模型与智能体（Agent）的测试生成、执行、分析与修复闭环系统，让测试用例“自动生成”、缺陷“主动发现”、问题“自动定位”，真正实现“让测试更简单”。你的工作将直接赋能菜鸟全球物流系统的高可靠、高效率交付，支撑亿级包裹背后的稳定体验。我们提供： 1、探索 AI + 软件工程前沿交叉领域的绝佳机会； 2、支撑菜鸟全球物流核心系统的高影响力技术平台； 3、与顶尖 AI 工程师、SRE、研发效能专家协同作战的成长环境； 4、阿里巴巴集团生态内的技术资源与职业发展通道。

更新于 2025-11-25杭州