字节跳动混合云高级运维交付专家-火山引擎
任职要求
1、5年以上云计算交付运维相关工作经验,2年以上团队管理经验; 2、熟悉Linux环境,熟练使用一种以上脚本语言,熟悉Linux性能分析和调优,有良好的计算机网络基础,熟悉Ansible、SaltStack、Puppet、…
工作职责
1、负责混合云运维交付团队的搭建和管理,主导混合云产品的交付运维工作; 2、参与运维工具和平台的设计与开发,持续提升运维和交付效率; 3、建立长效机制,识别产品和项目交付或升级中存在的问题并跟进优化。
1. 承担公司大规模算力集群的建设与交付,负责 GPU/XPU 等高性能加速卡资源的统一管理,支持大模型训练、在线推理、搜索、推荐等核心业务的稳定运行; 2. 熟悉主流 GPU 训练平台及分布式训练框架,了解 PyTorch、DeepSpeed、Megatron-LM 等在大规模集群中的训练特性,同时熟悉公有云上的云原生 GPU 训练平台(如 AWS、Azure、GCP、阿里云、火山引擎等)的调度、资源管理与训练流程; 3. 能够监控大规模 GPU 资源的使用情况,建立使用基线与性能指标体系,持续分析利用率、稳定性与异常模式,为资源规划、调度优化和容量管理提供依据; 4. 参与算力平台及相关服务的整体架构设计与生命周期管理,从规划、评审到部署上线,推动生产集群向更高稳定性与可持续性演进。
业务主要方向 • 交付履约平台研发,主要面向:阿里云的对客混合云履约,国际项目履约,专有云项目履约。 • 专有云技术服务平台研发,主要:为阿里云专有云驻场运维服务提供业务平台,保障客户驻场安全。提供专有云工单服务平台,帮助专有云的专家对客进行工单服务。 • 平台智能化方向,主要:结合大模型,对平台进行智能化改造,提高平台的效率,并帮助平台客户提供更智能化的服务。同时将成功经验对外商业化输出。 技术方案设计&技术实现 • 能够针对业务和产品的需求,在技术阶段:进行技术架构设计。在编码阶段:进行代码开发。部署阶段:推动代码CR,成功部署,并保证系统稳定性。 项目管理 • 自己能够把控节奏,确定项目的开发节奏和上线节奏。明确合作的岗位职责并进行任务分配。 • 总结项目经验和教训,反馈项目成果和绩效,为之后的项目管理沉淀经验总结

1. 负责公司容器与云原生平台的整体技术规划与架构设计 主导 Kubernetes 平台的整体架构设计、演进路线和技术选型 构建稳定、高可用、可扩展的容器运行时与调度平台,支撑核心业务系统 2. 建设和优化容器基础设施能力 深度参与 Kubernetes 核心组件(Scheduler、Controller、CRI、CNI、CSI 等)的定制、调优与问题排查 设计并落地多集群、多可用区、混合云、多云架构 提升集群稳定性、资源利用率与调度效率(弹性伸缩、资源超卖、QoS、潮汐调度等) 3. 打造云原生平台化能力 建设容器平台的 PaaS / 内部平台能力(应用发布、灰度发布、弹性伸缩、服务治理等) 推动 GitOps、声明式交付、自动化运维体系建设 与 CI/CD、服务网格、可观测性体系(Metrics、Logs、Tracing)深度集成 4. 复杂问题处理与稳定性保障 负责容器平台重大故障的技术分析、定位与治理方案 建立平台级 SLO / SLA、容量规划、稳定性与风险评估体系 优化平台在大规模业务、高并发场景下的性能与可靠性 5. 技术影响力与团队建设 负责容器团队的技术方向把控、技术评审与技术债治理 指导和培养高级工程师,提升团队整体技术深度 推动云原生最佳实践在公司内部的落地与规范化
特斯拉信息技术部门(工作地点:特斯拉上海超级工厂)正在招聘一名全职IT AI Platform 开发工程师,专注于构建和扩展下一代 AIOps与MLOps平台。随着人工智能技术在企业核心系统(尤其是GenAI平台)中的深入应用,亟需一位能够打通AI研发与生产部署之间壁垒的工程专家。该岗位将负责从模型训练、版本管理、自动化部署到高性能推理服务的完整MLOps体系建设,并主导构建支持本地GPU与云端LLM API融合的混合式推理网关平台,以实现低延迟、高吞吐的企业级AI服务能力。推动GenAI平台及未来AI服务落地的关键力量,将显著提升AI功能的交付效率与稳定性。 岗位职责: • 设计、构建和维护可扩展的 MLOps平台,实现AI模型从训练、版本控制、部署到监控的全生命周期管理。 • 基于 vLLM、TensorRT-LLM 、TGI 等框架,在大规模GPU集群上开发并优化大语言模型(LLM)推理流水线。 • 构建融合本地GPU模型与云上LLM API 的混合推理网关平台,实现智能路由、负载均衡与成本性能的优化。 • 搭建自动化 LLM微调(Fine-Tuning)流水线,支持LoRA、QLoRA等参数高效训练方法,涵盖数据预处理、分布式训练与检查点管理。 • 推动 RAG(检索增强生成)能力服务化(RAG-as-a-Service),集成并运维主流向量数据库(如 Pinecone、Milvus、Weaviate)。 • 通过 Prometheus、Grafana、OpenTelemetry 及自研监控方案,保障AI系统的可观测性与稳定性。 • 与AI科学家和应用工程师协作进行模型优化(量化、剪枝、蒸馏),提升推理效率与资源利用率。 • 支持 GenAI CN平台的高性能模型服务需求,确保低延迟、高并发的服务能力。 • 制定AI模型服务的关键性能指标(KPI)与服务等级协议(SLA),量化业务价值与系统表现。 • 使用 GitLab CI、Jenkins、ArgoCD 等工具实现AI工作流的CI/CD自动化,确保可复现性与可审计性。