字节跳动混合云高级运维交付专家-火山引擎

社招全职5年以上A4797A2022-07-06地点：北京状态：招聘

扫码手机上打开

任职要求

1、5年以上云计算交付运维相关工作经验，2年以上团队管理经验；
2、熟悉Linux环境，熟练使用一种以上脚本语言，熟悉Linux性能分析和调优，有良好的计算机网络基础，熟悉Ansible、SaltStack、Puppet、…

登录查看完整任职要求

微信扫码，1秒登录

工作职责

1、负责混合云运维交付团队的搭建和管理，主导混合云产品的交付运维工作；
2、参与运维工具和平台的设计与开发，持续提升运维和交付效率；
3、建立长效机制，识别产品和项目交付或升级中存在的问题并跟进优化。

📮 投递简历 ✨AI模拟面试

难度：

包括英文材料

Linux+

脚本+

Ansible+

SaltStack+

还有更多 •••

登录查看完整学习资料

相关职位

高级IT基础设施专家

社招3年以上运维及运维开发

1. 承担公司大规模算力集群的建设与交付，负责 GPU/XPU 等高性能加速卡资源的统一管理，支持大模型训练、在线推理、搜索、推荐等核心业务的稳定运行； 2. 熟悉主流 GPU 训练平台及分布式训练框架，了解 PyTorch、DeepSpeed、Megatron-LM 等在大规模集群中的训练特性，同时熟悉公有云上的云原生 GPU 训练平台（如 AWS、Azure、GCP、阿里云、火山引擎等）的调度、资源管理与训练流程； 3. 能够监控大规模 GPU 资源的使用情况，建立使用基线与性能指标体系，持续分析利用率、稳定性与异常模式，为资源规划、调度优化和容量管理提供依据； 4. 参与算力平台及相关服务的整体架构设计与生命周期管理，从规划、评审到部署上线，推动生产集群向更高稳定性与可持续性演进。

更新于 2026-01-28深圳

阿里云智能-高级Java研发工程师-西安

社招2年以上云智能集团

业务主要方向 • 交付履约平台研发，主要面向：阿里云的对客混合云履约，国际项目履约，专有云项目履约。 • 专有云技术服务平台研发，主要：为阿里云专有云驻场运维服务提供业务平台，保障客户驻场安全。提供专有云工单服务平台，帮助专有云的专家对客进行工单服务。 • 平台智能化方向，主要：结合大模型，对平台进行智能化改造，提高平台的效率，并帮助平台客户提供更智能化的服务。同时将成功经验对外商业化输出。技术方案设计&技术实现 • 能够针对业务和产品的需求，在技术阶段：进行技术架构设计。在编码阶段：进行代码开发。部署阶段：推动代码CR，成功部署，并保证系统稳定性。项目管理 • 自己能够把控节奏，确定项目的开发节奏和上线节奏。明确合作的岗位职责并进行任务分配。 • 总结项目经验和教训，反馈项目成果和绩效，为之后的项目管理沉淀经验总结

更新于 2025-08-08西安

容器云平台架构师

社招5年以上

1. 负责公司容器与云原生平台的整体技术规划与架构设计主导 Kubernetes 平台的整体架构设计、演进路线和技术选型构建稳定、高可用、可扩展的容器运行时与调度平台，支撑核心业务系统 2. 建设和优化容器基础设施能力深度参与 Kubernetes 核心组件（Scheduler、Controller、CRI、CNI、CSI 等）的定制、调优与问题排查设计并落地多集群、多可用区、混合云、多云架构提升集群稳定性、资源利用率与调度效率（弹性伸缩、资源超卖、QoS、潮汐调度等） 3. 打造云原生平台化能力建设容器平台的 PaaS / 内部平台能力（应用发布、灰度发布、弹性伸缩、服务治理等）推动 GitOps、声明式交付、自动化运维体系建设与 CI/CD、服务网格、可观测性体系（Metrics、Logs、Tracing）深度集成 4. 复杂问题处理与稳定性保障负责容器平台重大故障的技术分析、定位与治理方案建立平台级 SLO / SLA、容量规划、稳定性与风险评估体系优化平台在大规模业务、高并发场景下的性能与可靠性 5. 技术影响力与团队建设负责容器团队的技术方向把控、技术评审与技术债治理指导和培养高级工程师，提升团队整体技术深度推动云原生最佳实践在公司内部的落地与规范化

更新于 2026-01-06北京

高级软件开发工程师，AI平台

社招2年以上IT-应用软件

特斯拉信息技术部门（工作地点：特斯拉上海超级工厂）正在招聘一名全职IT AI Platform 开发工程师，专注于构建和扩展下一代 AIOps与MLOps平台。随着人工智能技术在企业核心系统（尤其是GenAI平台）中的深入应用，亟需一位能够打通AI研发与生产部署之间壁垒的工程专家。该岗位将负责从模型训练、版本管理、自动化部署到高性能推理服务的完整MLOps体系建设，并主导构建支持本地GPU与云端LLM API融合的混合式推理网关平台，以实现低延迟、高吞吐的企业级AI服务能力。推动GenAI平台及未来AI服务落地的关键力量，将显著提升AI功能的交付效率与稳定性。岗位职责： • 设计、构建和维护可扩展的 MLOps平台，实现AI模型从训练、版本控制、部署到监控的全生命周期管理。 • 基于 vLLM、TensorRT-LLM 、TGI 等框架，在大规模GPU集群上开发并优化大语言模型（LLM）推理流水线。 • 构建融合本地GPU模型与云上LLM API 的混合推理网关平台，实现智能路由、负载均衡与成本性能的优化。 • 搭建自动化 LLM微调（Fine-Tuning）流水线，支持LoRA、QLoRA等参数高效训练方法，涵盖数据预处理、分布式训练与检查点管理。 • 推动 RAG（检索增强生成）能力服务化（RAG-as-a-Service），集成并运维主流向量数据库（如 Pinecone、Milvus、Weaviate）。 • 通过 Prometheus、Grafana、OpenTelemetry 及自研监控方案，保障AI系统的可观测性与稳定性。 • 与AI科学家和应用工程师协作进行模型优化（量化、剪枝、蒸馏），提升推理效率与资源利用率。 • 支持 GenAI CN平台的高性能模型服务需求，确保低延迟、高并发的服务能力。 • 制定AI模型服务的关键性能指标（KPI）与服务等级协议（SLA），量化业务价值与系统表现。 • 使用 GitLab CI、Jenkins、ArgoCD 等工具实现AI工作流的CI/CD自动化，确保可复现性与可审计性。

上海