大疆高级IT环境管理工程师
任职要求
1. 本科或以上学历,具备5年以上的IT服务团队管理经验,有管理外包人员经验者优先;
2. 具备丰富的IT服务管理经验,熟悉终端、网络、系统等方面的技术支持;
3. 熟练掌握ITIL流程管理体系,具备ITILV3 f…工作职责
1. 负责管理全球IT服务外包员工的日常运维,并建立完善的外包供应商考核机制,确保服务交付的质量; 2. 规划和设计IT服务体系,定期识别、建立常用的服务模型与故障模型,确保服务流程规范统一,制定服务标准和SLA,推动全球服务标准化; 3. 负责全球IT服务团队的服务质量管理体系、培训体系的搭建并引入和推动行业内实践的落地; 4. 定期对IT服务台的运营情况进行分析,内容包括但不限于流程运行情况、服务质量分析、各项监测指标的趋势分析,并能根据分析内容,实施、跟踪改进措施; 5. 制定预防性措施和自助服务方案,持续减少工单量。建立服务质量监控和评估机制,定期评估团队的服务表现,确保服务质量的持续提升。
职位概述: 我们正在寻找一位对系统稳定性和高可用性有着极致追求的高级运维工程师。您将成为我们电商及资讯平台基础设施的“守护者”,核心职责是确保生产环境7x24小时高可用,并高效管理从故障发现到恢复的全生命周期。您需要具备深厚的技术功底、冷静的应急心态和强大的复盘能力,通过自动化、流程化和系统化的方法,不断提升我们系统的韧性与可观测性,为亿万用户的顺畅体验保驾护航。 核心职责: 1. 系统高可用性保障: o 负责公司核心业务(电商、资讯)生产环境及基础设施(服务器、网络、数据库、中间件等)的稳定运行,确保服务SLA达到或超过既定目标(如99.99%)。 o 设计、实施和维护高可用和容灾架构,包括同城双活、异地灾备等方案的落地与演练。 2. 监控与应急响应: o 主导建设和优化集中式监控、日志分析与告警系统(如Prometheus/Grafana, ELK, Zabbix, Datadog等),确保能提前预警、快速发现问题。 o 作为主要事故处理指挥官(Incident Commander),负责7x24小时应急响应,领导并协调相关团队对线上事故进行快速定位、止损和恢复,最大限度降低影响。 3. 事故全生命周期管理: o 严格遵循ITIL等最佳实践,管理事故(Incident)和处理工单(Ticket)。 o 主导重大事故复盘(Post-mortem),编写详尽的复盘报告,深入分析根因,并推动落实改进措施(如代码修复、流程优化、架构调整等),避免同类问题重复发生。 4. 运维自动化与效率提升: o 通过编写脚本(Shell/Python/Go等)和利用自动化工具(Ansible/Terraform等),自动化日常运维操作和故障处理流程,提升效率,减少人为失误。 o 践行SRE(Site Reliability Engineering)理念,通过代码管理基础设施(IaC)。 5. 容量规划与性能优化: o 定期进行系统容量评估和规划,确保系统有能力应对业务增长和突发流量(如大促活动)。 o 分析系统性能瓶颈,协同开发团队进行调优,提升系统效率和资源利用率。 6. 系统组件的安全升级及维护: o 常规维护能力:具备使用安全扫描工具进行安全漏洞扫描额能力。 能全程跟进系统组件安全管理,做好版本监控、漏洞扫描与风险评估,按计划升级部署补丁、更新配置,快速应对突发安全事件,降低业务受影响程度。 o 借助工具强化能力:熟练使用安全卫士等工具,将其融入维护流程。实现自动化漏洞检测与修复建议输出,实时监控异常与潜在威胁并预警阻断,利用日志分析优化安全策略,构建闭环安全管理体系。
We empower our people to stay resilient and relevant in a constantly changing world. We're looking for people who are always searching for creative ways to grow and learn. People who want to make a real impact, now and in the future. Does that sound like you? Then it seems like you'd make a great addition to our vibrant international team. For our Siemens Advanta Consulting team, we are looking for AI Sr. Consultant to help us drive Advanta business within Siemens and beyond. We are a highly motivated team and excited to get to know you. You'll make an impact by 一、岗位概述 我们正在寻找一位具有 3-5 年人工智能或数据科学经验的工程师,帮助公司将 AI 技术深度融入生产制造全流程。您将与生产、质量、设备、IT/OT 团队协同,利用机器学习、深度学习与工业数据为制造现场创造切实可见的价值,提高产量、良率与设备稼动率,降低能耗与维护成本。 二、核心职责 1. 视觉质检 • 设计和部署基于 CNN/Transformer 的缺陷检测与分类模型,适配多品类、多光照、多批次的生产现场。 • 与质量工程师合作建立样本标注流程,持续提升模型召回率与精确率。 2. 预测性维护 • 采集并分析振动、声学、电流、电压等多模态传感器数据,构建剩余寿命预测(RUL)和故障预警模型。 • 将模型结果集成到 EAM/CMMS,实现从“计划检修”到“按状态检修”的转变。 3. 工艺与流程优化 • 运用时间序列分析、贝叶斯优化或强化学习,寻优关键工艺参数(温度、压力、速度等),提升良率、降低能耗和物料损耗。 • 与生产计划团队协作,开发动态排产与库存优化算法,缩短生产周期。 4. 数据工程 & MLOps • 搭建数据采集、清洗、标签管理及特征工程流程,保证数据质量和实时性。 • 负责模型在云端或边缘侧部署、监控与迭代,确保在工业环境下的稳定、低时延运行。 5. 跨部门协作 • 与 OT(PLC/SCADA/MES)及 IT 团队对接,实现从设备到模型再到业务系统的数据闭环。 • 将技术成果沉淀为规范、文档与最佳实践,提升公司 AI 工程化能力。
业务支撑 • 负责计算巢及应用管理管控功能与 API 的开发与维护。 • 负责计算巢 AI 类解决方案的构建,包括模型市场(LLM/AIGC)、MCP 市场、Agent 场景等。 • 根据客户需求,制定功能解决方案,并完成功能开发与优化。 技术方案设计 • 收集、识别、分析客户需求,并确定技术方案的目标、范围和交付成果。 • 基于需求分析,进行技术可行性分析和方案评审,选择合适的技术选型、功能设计、技术架构、数据架构和开发流程等。 技术实现 • 基于技术方案的拆解,按照任务目标和产出规范,完成任务/子任务的设计、编码开发和系统功能实现。 • 负责核心功能的架构与代码模板的编写,开发与维护系统公用核心模块,技术架构重构、优化等。 • 对编码进行阶段性的讨论和CodeReview,并通过调试优化,推动代码成功部署。 • 对开发中和部署后的程序进行必要的维护和迭代,包括值班oncall、升级工单处置、bug排查、问题诊断、产品体验改善、性能和成本优化等。 稳定性和性能优化 • 制定稳定性策略,寻找并解决产品系统中的潜在风险和瓶颈,覆盖线上疑难杂症问题,确保系统的安全可靠。 • 运用产品优化技术和方法,进行性能优化,提高产品稳定性和性能。 技术预研 • 跟踪和了解最新的产品技术和趋势,根据业务需要提供最新的技术支持和建议。 技术规划 • 理解业务战略及重点,基于业务需求作出高可用、高可靠、高拓展性的技术架构规划和落地。