京东IAAS运维工程师
任职要求
1. 有大、中型集群系统规划、设计、部署、安全和运维保障经验; 2. 了解云平台架构方案,了解并实施过OpenStack项目优先; 3. 熟悉Linux和KVM虚拟化技术,熟练掌握Linux环境中主要服务及软件的配置、管理和监控技术; 4. 熟练掌握Python、Shell并具备运维开发能力; 5. 具备Chef/Ansible/Puppet等任一种配置管理工具的实战经验,能够结合产品需求制定并实施综合性的运维技术方案; 6. 适应7x24小时运维响应要求,有强烈的责任心,能承受一定工作压力; 7. 熟悉服务器、存储等技术,具有大型网站高并发量运维支持经验优先; 8. 有智算集群运维经验者优先; 9.符合京东价值观:客户为先、创新、拼搏、担当、感恩、诚信。
工作职责
1. 负责建设和维护京东公有云平台,进行日常配置管理、线上变更、监控报警及故障响应等工作; 2. 负责公有云平台线上稳定性工作,确保达到业界领先的SLA水平; 3. 根据业务发展要求,做好容量规划与集群性能优化工作,在低成本、高性能、高弹性等方向上提供运营决策参考; 4. 参与平台运维体系建设工作,最大限度的实现运维工作自动化,建设符合云平台特点的自动化运维平台。
1、系统及云平台管理:负责vivo全球数据中心、云平台的上万台服务器系统的建设及管理工作,为vivo企业级业务保驾护航; 2、存储备份管理:负责vivo全球数据中心数PB的SAN/NAS存储、分布式存储、对象存储的建设及运维管理,负责vivo企业数据全生命周期管理、全球容灾备份管理; 3、智能运维平台:参与vivo IAAS/PAAS云平台、智能监控运维平台、ITSM、CMDB、容器等各平台的开发建设,利用大数据和人工智能技术手段,持续改善vivo企业用户服务体验,降低公司IT运营成本。 4、数据中心管理:负责vivo全球数据中心基础设施的规划设计、实施运维以及体系标准建设,提升数据中心机房的稳定性及降低能效。

职位概述 我们正在寻找充满热情、学习能力强、对云计算和网络安全有浓厚兴趣的应届毕业生加入我们的团队。作为云/云安全运维工程师(应届生),你将从基础开始,在资深工程师的指导下,参与公司云平台(如 AWS, Azure, 阿里云, 腾讯云等)的日常运维、监控、基础架构部署以及初步的安全防护工作。这是一个快速学习和成长的平台,你将接触到业界领先的技术实践,为构建稳定、高效、安全的云环境贡献力量。 核心职责 (应届生培养方向) 1.云平台基础运维: o协助进行云资源(虚拟机、存储、网络、数据库等)的日常监控、状态检查与基础故障排查。 o学习并执行云资源的部署、配置、备份与恢复等基础操作(在指导下)。 o参与云环境成本的基础监控和优化建议。 2.云安全初步实践: o协助监控云平台安全日志和告警,识别潜在的安全风险或异常活动。 o学习和应用基础的安全组/防火墙规则、访问控制策略(IAM/RBAC)配置。 o参与漏洞扫描结果的初步分析和跟踪。 o学习并协助实施基础的安全合规性检查。 3.自动化与效率提升: o学习使用脚本语言(如 Python, Shell)或基础设施即代码工具(如 Terraform, Ansible)进行简单自动化任务的编写与执行。 o参与运维流程文档的编写和维护。 4.协作与学习: o积极向导师和团队成员学习,快速掌握云平台和云安全的核心知识与运维技能。 o参与团队的技术分享与讨论,提出改进建议。 o响应内部用户的基础技术支持请求。
1、负责阿里云AI人工智能平台(PAI)运维工作,建设超大规模GPU集群稳定性体系,包括可观测性链路、监控报警,故障应急及处置、SLA可用率度量提升等 2、研发AI运维管控平台,通过自动化提升运维效率,包括交付&变更CICD、GPU节点交付&自愈、智能诊断定界等 3、落地AIOps智能运维,通过AI算法提升稳定性,包括异常检测、根因定位及基于大模型&智能体Agent运维落地等 4、负责稳定性架构设计及项目组织推动落地,包括基础架构云原生化、跨AZ高可用架构、产品可运维性架构演进等