
地平线高级DevOps工程师
任职要求
1. 本科及以上学历,计算机或相关专业背景,5 年以上 DevOps 平台、CI/CD、研发效能或自动化方向经验。 2. 熟悉 GitLab 专业版管理与实践,精通分支策略、审批规则、权限模型、Runner 配置及项目治理。 3. 熟悉 GitLab、Gerrit、Jenkins、Artifactory、Jira、Jama、Coverity、BlackDuck 等工具的集成原理与协同设…
工作职责
1. DevOps 平台规划与产品化落地 负责 DevOps 平台的整体架构设计与产品规划,系统梳理研发团队痛点与效率瓶颈,推动工具链一体化、流程自动化与体验可视化。 制定平台功能演进路线图,持续提升研发体验与交付效率。 2. 工具链整合与统一入口建设 整合 GitLab、Gerrit、Jenkins、Artifactory、Jira、Jama、Coverity、BlackDuck 等现有工具服务,构建统一门户与单点登录体系,实现统一认证、统一审批与统一视图,提升平台一致性与可用性。 3. 版本控制与协作体系治理 作为代码管理平台专家,负责项目结构、分支策略、权限模型及审批规则的设计与落地;制定 Git Workflow、合并策略及分支保护机制,保障协作高效、流程规范与合规可追溯。 4. 效能指标体系与智能分析建设 建立研发效能指标体系(如提交频次、构建成功率、评审效率、缺陷关闭率等),探索引入 AI 能力辅助分析 CI 失败原因、瓶颈识别与趋势预测,为效能改进提供数据支撑。 5. 用户体验与流程创新 深入调研研发、测试、PM、安全、质量等多角色需求,设计并实施改进方案;以“自服务 + 智能化”为目标,打造可视化、易用化、自动化的 DevOps 平台体验。 6. 新技术探索与架构优化 持续跟踪 DevOps 工具链的新特性与社区动态,评估引入和升级价值,结合企业需求进行架构优化、CI/CD 流程创新与高可用体系设计。 7. 跨团队协作与推广赋能 与研发、运维、安全、质量等团队紧密协作,组织平台培训与推广活动,推动 DevOps 最佳实践落地,助力企业研发效能持续提升。
(AI智能体 AIGC方向) 1. 负责 AIGC/LLM 在研发 DevOps 领域各场景的工程化、平台化落地工作; 2. 对现有系统的方案设计、性能瓶颈进行优化改进, 承担关键技术攻关; 3. 持续关注前沿技术,针对新的业务场景和挑战,能引入新的技术方案并落地实施。
我们正在寻找一位热衷于自动化和机器人技术的DevOps工程师。您将核心负责设计、构建并优化一套高效、可靠的持续集成/持续交付(CI/CD)流水线,直接赋能我们的机器人软件研发、测试与部署全流程,确保我们的机器人产品能够快速、稳定地迭代。 关键职责: 1.CI/CD流水线建设与优化: 您将主导基于Jenkins、GitLab CI/CD等工具搭建和维护适用于机器人项目的自动化流水线,实现从代码提交、静态扫描、单元测试到制品归档和部署发布的端到端自动化; 2.机器人系统部署自动化: 开发自动化部署脚本和流程,支持机器人系统在各类环境(包括工控机、嵌入式设备等)上的快速部署、更新与回滚。结合Docker等容器化技术优化部署流程; 3.构建与环境管理: 维护和优化Linux构建服务器,管理本地依赖库(如jfrog仓库),确保构建环境的安全、稳定和高性能。支持多语言(如C++、Python)的自动化构建; 4.自动化测试集成: 与研发团队协作,将针对机器人特定功能(如感知、定位、导航决策)的自动化测试框架集成到CI/CD流程中,并定义关键性能指标以评估系统可靠性与准确性; 5.基础设施与监控: 参与维护基础设施,包括监控(如Prometheus/Grafana)、日志系统等,保证开发和生产环境的高可用性。协助团队排查和解决与环境相关的问题。 软技能与协作能力: 1.卓越的沟通与协作能力:具备出色的口头和书面沟通能力,能够主动推进跨部门(开发、算法、硬件、测试等)协作,有效整合资源,理解并化解协作中的瓶颈; 2.问题解决与主动性:拥有强烈的主人翁意识和快速解决问题的能力,乐于接受挑战,并能在一个快速变化的研发环境中高效工作; 3.持续学习与分享精神:对新技术保持好奇心,具备良好的文档习惯和乐于分享的精神。

管理和监控基础设施,确保系统的安全性、稳定性和性能 * 设计并实施自动化的部署和运维流程,支持软件开发和发布的高效协作 * 协助开发团队进行环境配置、问题排查以及性能调优 * 负责系统和应用的监控,分析日志,识别并解决潜在问题 * 参与故障响应,快速定位和解决生产环境中的问题,确保系统的高可用性 * 编写和维护运维文档,包括设计文档、操作手册和故障排除指南 * 跟踪和实施 DevOps 的最佳实践及新技术,不断优化团队的工作流程
阿里云正在构建面向 AI 大模型训练与推理的下一代高性能网络基础设施,以支撑全球企业对极致算力与低延迟网络的需求。我们正在寻找一位在 RDMA(Remote Direct Memory Access) 技术领域有深厚经验的 DevOps 工程师,负责设计、部署和优化基于 RDMA 的 AI 训练集群网络架构,推动高性能网络技术在分布式 AI 场景的落地与创新。 核心职责: 1)AI 训练集群网络架构设计与运维 部署、运维和维护基于 RoCE/InfiniBand 的 RDMA 网络架构,支撑大规模 AI 训练集群(如万卡级 GPU 集群); 优化分布式 AI 工作负载(如 NCCL、MPI)的网络性能,降低通信延迟,提升吞吐效率。 2)网络性能调优与问题解决 解决分布式训练中的复杂网络问题(如 NCCL/MPI 通信瓶颈、带宽利用率低等); 利用自动化工具进行网络资源分配、监控、诊断及性能分析(如延迟/吞吐量分析、端到端链路追踪)。 3)自动化与 CI/CD 实践 构建网络基础设施的 CI/CD 流水线(Infrastructure as Code),实现网络配置的自动化部署与版本管理; 开发自动化脚本与工具,提升网络运维效率与稳定性。 4)全生命周期网络管理 管理端到端网络生命周期(部署、配置、监控、升级),确保网络服务的高可用性与可扩展性; 设计并实施网络监控与告警体系,快速定位并修复潜在故障。 5)跨团队协作与技术落地 与 AI/ML 工程师紧密合作,排查训练/推理流水线中的网络瓶颈,提供针对性优化方案; 深度参与 AI 框架(如 TensorFlow、PyTorch)与底层网络基础设施的适配与性能调优。