logo of xpeng

小鹏汽车大模型 devops 工程师

社招全职智能机器人板块地点:深圳 | 上海 | 北京状态:招聘

任职要求


职位要求
1. 硕士及以上学历,计算机、软件工程、人工智能等相关专业优先
2. 熟悉Linux开发环境,具备良好扎实的算法数据结构基础、良好的编程风格和系统设计能力。
3. 优秀的编码…
登录查看完整任职要求
微信扫码,1秒登录

工作职责


1. 负责公司机器学习平台相关子系统的设计、开发和优化工作,打造易用、稳定、高效的机器学习平台
2. 设计、开发大规模机器学习系统的 debug 工具,在分布式环境下可以快速发现故障
3. 针对公司内多种异构硬件,提供统一的基础镜像/环境
4. 负责公司内部 CI/CD/质量流程开发
包括英文材料
学历+
Linux+
算法+
数据结构+
系统设计+
还有更多 •••
相关职位

logo of xiaohongshu
社招后端开发

打造业界一流的 DevOPS 平台工程体系。 参与公司级统一建站、发布运维、变更管控等相关平台的系统设计、研发实现和稳定性保障。 通过技术工程和平台建设,提升公司日常研发运维、活动保障、机房迁移等场景的实施效率和质量。 洞察同领域业务发展方向,引入大模型提升 DevOPS 产品能力。

更新于 2025-09-13上海|杭州
logo of xiaohongshu
校招基础后端

1、负责打造业界一流的 DevOPS 平台工程体系; 2、参与公司级统一建站、发布运维、变更管控等相关平台的系统设计、研发实现和稳定性保障; 3、通过技术工程和平台建设,提升公司日常研发运维、活动保障、机房迁移等场景的实施效率和质量; 4、洞察同领域业务发展方向,引入大模型提升 DevOPS 产品能力; 5、负责小红书多云架构下Finops平台技术架构和设计方案; 6、构建一流的技术服务商品体系,提升技术成本洞察及决策效率。

更新于 2025-09-13上海|杭州|北京
logo of sensetime
社招后端开发

负责大模型应用系统的后端架构设计与开发,保障系统的高可用性、稳定性及可扩展性; 参与智能体(Agent)和垂直领域大模型应用的服务端研发,持续优化业务落地效果; 负责后端服务模块开发,包括接口设计、服务拆分、数据库建模等核心工作; 参与国产化大模型的系统适配与框架设计,提升服务的通用性与兼容能力; 协同算法、前端、测试等团队,确保系统按计划稳定上线,并解决客户现场技术问题; 持续关注大模型和工程技术的发展趋势,结合业务需求推进服务端架构和性能的优化。

更新于 2025-07-17深圳|武汉
logo of aliyun
社招3年以上云智能集团

阿里云正在构建面向 AI 大模型训练与推理的下一代高性能网络基础设施,以支撑全球企业对极致算力与低延迟网络的需求。我们正在寻找一位在 RDMA(Remote Direct Memory Access) 技术领域有深厚经验的 DevOps 工程师,负责设计、部署和优化基于 RDMA 的 AI 训练集群网络架构,推动高性能网络技术在分布式 AI 场景的落地与创新。 核心职责: 1)AI 训练集群网络架构设计与运维 部署、运维和维护基于 RoCE/InfiniBand 的 RDMA 网络架构,支撑大规模 AI 训练集群(如万卡级 GPU 集群); 优化分布式 AI 工作负载(如 NCCL、MPI)的网络性能,降低通信延迟,提升吞吐效率。 2)网络性能调优与问题解决 解决分布式训练中的复杂网络问题(如 NCCL/MPI 通信瓶颈、带宽利用率低等); 利用自动化工具进行网络资源分配、监控、诊断及性能分析(如延迟/吞吐量分析、端到端链路追踪)。 3)自动化与 CI/CD 实践 构建网络基础设施的 CI/CD 流水线(Infrastructure as Code),实现网络配置的自动化部署与版本管理; 开发自动化脚本与工具,提升网络运维效率与稳定性。 4)全生命周期网络管理 管理端到端网络生命周期(部署、配置、监控、升级),确保网络服务的高可用性与可扩展性; 设计并实施网络监控与告警体系,快速定位并修复潜在故障。 5)跨团队协作与技术落地 与 AI/ML 工程师紧密合作,排查训练/推理流水线中的网络瓶颈,提供针对性优化方案; 深度参与 AI 框架(如 TensorFlow、PyTorch)与底层网络基础设施的适配与性能调优。

更新于 2025-12-29北京|杭州