字节跳动混合云高级运维交付专家-火山引擎
任职要求
1、5年以上云计算交付运维相关工作经验,2年以上团队管理经验; 2、熟悉Linux环境,熟练使用一种以上脚本语言,熟悉Linux性能分析和调优,有良好的计算机网络基础,熟悉Ansible、SaltStack、Puppet、…
工作职责
1、负责混合云运维交付团队的搭建和管理,主导混合云产品的交付运维工作; 2、参与运维工具和平台的设计与开发,持续提升运维和交付效率; 3、建立长效机制,识别产品和项目交付或升级中存在的问题并跟进优化。
业务主要方向 • 交付履约平台研发,主要面向:阿里云的对客混合云履约,国际项目履约,专有云项目履约。 • 专有云技术服务平台研发,主要:为阿里云专有云驻场运维服务提供业务平台,保障客户驻场安全。提供专有云工单服务平台,帮助专有云的专家对客进行工单服务。 • 平台智能化方向,主要:结合大模型,对平台进行智能化改造,提高平台的效率,并帮助平台客户提供更智能化的服务。同时将成功经验对外商业化输出。 技术方案设计&技术实现 • 能够针对业务和产品的需求,在技术阶段:进行技术架构设计。在编码阶段:进行代码开发。部署阶段:推动代码CR,成功部署,并保证系统稳定性。 项目管理 • 自己能够把控节奏,确定项目的开发节奏和上线节奏。明确合作的岗位职责并进行任务分配。 • 总结项目经验和教训,反馈项目成果和绩效,为之后的项目管理沉淀经验总结

1. 负责公司容器与云原生平台的整体技术规划与架构设计 主导 Kubernetes 平台的整体架构设计、演进路线和技术选型 构建稳定、高可用、可扩展的容器运行时与调度平台,支撑核心业务系统 2. 建设和优化容器基础设施能力 深度参与 Kubernetes 核心组件(Scheduler、Controller、CRI、CNI、CSI 等)的定制、调优与问题排查 设计并落地多集群、多可用区、混合云、多云架构 提升集群稳定性、资源利用率与调度效率(弹性伸缩、资源超卖、QoS、潮汐调度等) 3. 打造云原生平台化能力 建设容器平台的 PaaS / 内部平台能力(应用发布、灰度发布、弹性伸缩、服务治理等) 推动 GitOps、声明式交付、自动化运维体系建设 与 CI/CD、服务网格、可观测性体系(Metrics、Logs、Tracing)深度集成 4. 复杂问题处理与稳定性保障 负责容器平台重大故障的技术分析、定位与治理方案 建立平台级 SLO / SLA、容量规划、稳定性与风险评估体系 优化平台在大规模业务、高并发场景下的性能与可靠性 5. 技术影响力与团队建设 负责容器团队的技术方向把控、技术评审与技术债治理 指导和培养高级工程师,提升团队整体技术深度 推动云原生最佳实践在公司内部的落地与规范化
特斯拉信息技术部门(工作地点:特斯拉上海超级工厂)正在招聘一名全职IT AI Platform 开发工程师,专注于构建和扩展下一代 AIOps与MLOps平台。随着人工智能技术在企业核心系统(尤其是GenAI平台)中的深入应用,亟需一位能够打通AI研发与生产部署之间壁垒的工程专家。该岗位将负责从模型训练、版本管理、自动化部署到高性能推理服务的完整MLOps体系建设,并主导构建支持本地GPU与云端LLM API融合的混合式推理网关平台,以实现低延迟、高吞吐的企业级AI服务能力。推动GenAI平台及未来AI服务落地的关键力量,将显著提升AI功能的交付效率与稳定性。 岗位职责: • 设计、构建和维护可扩展的 MLOps平台,实现AI模型从训练、版本控制、部署到监控的全生命周期管理。 • 基于 vLLM、TensorRT-LLM 、TGI 等框架,在大规模GPU集群上开发并优化大语言模型(LLM)推理流水线。 • 构建融合本地GPU模型与云上LLM API 的混合推理网关平台,实现智能路由、负载均衡与成本性能的优化。 • 搭建自动化 LLM微调(Fine-Tuning)流水线,支持LoRA、QLoRA等参数高效训练方法,涵盖数据预处理、分布式训练与检查点管理。 • 推动 RAG(检索增强生成)能力服务化(RAG-as-a-Service),集成并运维主流向量数据库(如 Pinecone、Milvus、Weaviate)。 • 通过 Prometheus、Grafana、OpenTelemetry 及自研监控方案,保障AI系统的可观测性与稳定性。 • 与AI科学家和应用工程师协作进行模型优化(量化、剪枝、蒸馏),提升推理效率与资源利用率。 • 支持 GenAI CN平台的高性能模型服务需求,确保低延迟、高并发的服务能力。 • 制定AI模型服务的关键性能指标(KPI)与服务等级协议(SLA),量化业务价值与系统表现。 • 使用 GitLab CI、Jenkins、ArgoCD 等工具实现AI工作流的CI/CD自动化,确保可复现性与可审计性。
1、运维可观测链路建设 • 负责全链路稳定性解决方案的制定与执行,包括交付、变更、应急及稳定性专项建设; • 事前:建立并持续优化产品运维的监控机制,研发并维护相应的运维监控平台/工具; • 事中:建立并持续优化产品运维的预警机制,确保故障能够被快速发现、通报、定位及处理; • 事后:快速分析、诊断、定位问题,并能够协同开发人员解决问题;建立健全快速恢复服务机制,降低业务受损程度,确保产品、业务稳定运行;牵头问题复盘工作,通过架构优化等根治引起不可用的问题。 2、运维平台产品化与智能化建设 • 设计、研发并维护智能化的运维平台、工具、系统,帮助解决生产系统遇到的容量、性能、稳定性等问题,提升性能与效率; • 负责运营质量数据化分析工作,通过对日常运维指标、问题、风险、稳定性结果进行分析和研究,建立模型、计算ROI/TCO来解决、优化和落地给出运营优化建议; • 负责高可用体系建设,如巡检、故障自动定位、自动恢复、自适应容灾、云原生技术实施及落地等,保障业务持续可用。 • 负责运维能力的抽象与设计,通过平台实现运维能力产品化,建立配套的标准运维手册,提升运维的易用性/完整性和降低误操作风险(专有云); • 将运维服务产品化能力传达给客户,建设客户心智,提升运维服务效率(反馈增加) 3、运维服务体系建设 • 建设本领域相关的运维体系(如变更标准,重保体系,客情预警等),确保本领域产品运维&稳定性能力提升; • 牵头制定本领域内的相关新产品\新功能的的SLA协议承诺; • 基于SLA要求,评审新产品\新功能的架构是否可用、安全; • 通过日常运维活动优化产品稳定性,达成SLA目标; 4、容量规划与调优 • 基于年度的产品线规划,进行预算编制、容量规划与置备,协调各方持续滚动进行存储、计算等资源消耗的预测与估算; • 通过技术手段提升线上资源利用效率,降低物理资源成本(如结合对于业务波峰/波谷等的预测,进行混合部署)。 • 通过云平台与云产品的容量模型设计与调优以及配套的工具建设,降低云平台因为资源问题带来的稳定性风险并提升资源利用率(专有云) 5、安全保障建设 • 日常on call值班,及时响应告警及技术支持升级的疑难问题,并解决; • 负责集团级重大活动(如双11等)的运维保障工作; • 配合安全团队,梳理安全漏洞,优化相关技术架构,提升产品与系统的安全性。 • 负责云平台风险管理能力建设,通过风险策略库建设提前识别风险,建立风险预警和治理机制,推动云平台风险治理提升客户稳定性(专有云) 6、平台架构升级 • 负责系统架构升级,如内核升级、网络架构升级、存算分离、服务跨机房迁移、服务上云 • 负责容灾架构设计并实施,如同城容灾、异地多活等 • 负责云平台软硬件生命周期设计,制定升级方案,通过商务法务产品与服务策略制定,推动客户云平台持续演进(专有云) • 负责云平台的分层设计,并通过依赖与兼容性治理与优化,实现云平台分层解耦,提升交付、升级的灵活性与稳定性(专有云)