小鹏汽车大模型 devops 工程师

社招全职智能机器人板块2025-08-19地点：深圳 | 上海 | 北京状态：招聘

扫码手机上打开

任职要求

职位要求
1. 硕士及以上学历，计算机、软件工程、人工智能等相关专业优先
2. 熟悉Linux开发环境，具备良好扎实的算法数据结构基础、良好的编程风格和系统设计能力。
3. 优秀的编码…

登录查看完整任职要求

微信扫码，1秒登录

工作职责

1. 负责公司机器学习平台相关子系统的设计、开发和优化工作，打造易用、稳定、高效的机器学习平台
2. 设计、开发大规模机器学习系统的 debug 工具，在分布式环境下可以快速发现故障
3. 针对公司内多种异构硬件，提供统一的基础镜像/环境
4. 负责公司内部 CI/CD/质量流程开发

📮 投递简历 ✨AI模拟面试

难度：

包括英文材料

学历+

Linux+

算法+

数据结构+

系统设计+

还有更多 •••

登录查看完整学习资料

相关职位

高可用平台研发工程师-基础技术

社招后端开发

打造业界一流的 DevOPS 平台工程体系。参与公司级统一建站、发布运维、变更管控等相关平台的系统设计、研发实现和稳定性保障。通过技术工程和平台建设，提升公司日常研发运维、活动保障、机房迁移等场景的实施效率和质量。洞察同领域业务发展方向，引入大模型提升 DevOPS 产品能力。

更新于 2025-09-13上海|杭州

【2026校招】基础后端开发工程师

校招基础后端

1、负责打造业界一流的 DevOPS 平台工程体系； 2、参与公司级统一建站、发布运维、变更管控等相关平台的系统设计、研发实现和稳定性保障； 3、通过技术工程和平台建设，提升公司日常研发运维、活动保障、机房迁移等场景的实施效率和质量； 4、洞察同领域业务发展方向，引入大模型提升 DevOPS 产品能力； 5、负责小红书多云架构下Finops平台技术架构和设计方案； 6、构建一流的技术服务商品体系，提升技术成本洞察及决策效率。

更新于 2025-09-13上海|杭州|北京

SCG-后端开发工程师（AI应用方向）

社招后端开发

负责大模型应用系统的后端架构设计与开发，保障系统的高可用性、稳定性及可扩展性；参与智能体（Agent）和垂直领域大模型应用的服务端研发，持续优化业务落地效果；负责后端服务模块开发，包括接口设计、服务拆分、数据库建模等核心工作；参与国产化大模型的系统适配与框架设计，提升服务的通用性与兼容能力；协同算法、前端、测试等团队，确保系统按计划稳定上线，并解决客户现场技术问题；持续关注大模型和工程技术的发展趋势，结合业务需求推进服务端架构和性能的优化。

更新于 2025-07-17深圳|武汉

阿里云智能-高性能网络技术高级开发工程师-北京/杭州

社招3年以上云智能集团

阿里云正在构建面向 AI 大模型训练与推理的下一代高性能网络基础设施，以支撑全球企业对极致算力与低延迟网络的需求。我们正在寻找一位在 RDMA（Remote Direct Memory Access）技术领域有深厚经验的 DevOps 工程师，负责设计、部署和优化基于 RDMA 的 AI 训练集群网络架构，推动高性能网络技术在分布式 AI 场景的落地与创新。核心职责： 1）AI 训练集群网络架构设计与运维部署、运维和维护基于 RoCE/InfiniBand 的 RDMA 网络架构，支撑大规模 AI 训练集群（如万卡级 GPU 集群）；优化分布式 AI 工作负载（如 NCCL、MPI）的网络性能，降低通信延迟，提升吞吐效率。 2）网络性能调优与问题解决解决分布式训练中的复杂网络问题（如 NCCL/MPI 通信瓶颈、带宽利用率低等）；利用自动化工具进行网络资源分配、监控、诊断及性能分析（如延迟/吞吐量分析、端到端链路追踪）。 3）自动化与 CI/CD 实践构建网络基础设施的 CI/CD 流水线（Infrastructure as Code），实现网络配置的自动化部署与版本管理；开发自动化脚本与工具，提升网络运维效率与稳定性。 4）全生命周期网络管理管理端到端网络生命周期（部署、配置、监控、升级），确保网络服务的高可用性与可扩展性；设计并实施网络监控与告警体系，快速定位并修复潜在故障。 5）跨团队协作与技术落地与 AI/ML 工程师紧密合作，排查训练/推理流水线中的网络瓶颈，提供针对性优化方案；深度参与 AI 框架（如 TensorFlow、PyTorch）与底层网络基础设施的适配与性能调优。

更新于 2025-12-29北京|杭州