logo of aliyun

阿里云阿里云智能-安全容器稳定性技术专家-上海/杭州

社招全职5年以上技术类-开发地点:杭州 | 上海状态:招聘

任职要求


1. 5年云计算和容器相关的研发经验,具备扎实的计算机系统基础理论知识,丰富的java/golang/Python开发经验
2. 熟悉Linux/Unix系统管理(如CentOSUbuntu),掌握容器化技术(DockerKubernetes)及云原生生态(HelmHelm Charts、Operator)
3. 熟悉监控工具(PrometheusGrafana、Zabbix、Nagios)和日志分析系统(ELK Stack、Splunk、Datadog)
4. 熟悉主流公有云(AWSAzure、阿里云、腾讯云等)的服务(如EC2、S3、Lambda、EKS、RDS、VPC等),具备云资源管理能力
5. 对新技术充满热情,有创新精神,具备良好的团队协作和沟通能力

工作职责


1. 阿里云安全容器稳定性技术专家,负责构建安全容器线上稳定性能力,保障专属云等智算场景安全容器稳定性
2. 负责安全容器监控、诊断以及告警后端开发,保障阿里云安全容器pod、节点、网络和存储的高可用性
3. 负责利用数据科学、机器学习等技术优化运维流程,提升稳定性运维的自动化智能化水平和效率
包括英文材料
Java+
Python+
Linux+
Unix+
CentOS+
Ubuntu+
Docker+
Kubernetes+
Helm+
Prometheus+
Grafana+
AWS+
Azure+
相关职位

logo of aliyun
社招5年以上云智能集团

1. 技术方案设计 ● 了解并分析ECS基础设施(如神龙MoC卡 + 宿主机)在系统稳定性与高可用方面的设计目标; ● 根据业务需求,评估技术可行性,参与方案评审,完成技术选型、功能设计、系统架构、数据结构和开发流程的规划。 2. 技术实现 ● 参与虚拟机故障逃生等创新性技术的研发工作,能根据整体方案拆解任务,独立完成模块设计、编码和系统功能开发; ● 负责故障检测、隔离、恢复、数据一致性校验等核心功能的架构设计和代码实现,持续优化系统性能; ● 参与代码评审和阶段性讨论,通过调试和优化,确保代码高质量交付; ● 负责开发和上线后的系统维护,包括值班响应、问题排查、故障诊断、体验优化、性能与成本调优等; ● 编写必要的技术文档,如操作手册、排障指南、API说明等,支持团队运维和问题处理。 3. 系统稳定性与性能优化 ● 运用优化方法和技术手段,提升系统的安全性、稳定性和运行效率,保障ECS基础设施的可靠运行,改善客户使用体验。 4. 技术预研 ● 跟踪系统可靠性(RAS)和高可用技术的发展趋势,结合实际业务需求,提出可行的技术建议和架构改进方案。 5. 技术规划 ● 深入理解业务方向,结合长期发展需求,制定高可用、高可靠、易扩展的技术架构规划,并推动落地实施。

更新于 2025-09-08
logo of aliyun
社招5年以上云智能集团

1、技术方案设计 • 收集、识别、分析平台设计目标及管理需求,围绕资源管理平台确定相应技术方案的目标、范围和交付成果; • 基于需求分析,进行技术可行性分析和方案评审,结合当前的技术架构进行合适的技术选型、功能设计、技术架构、数据架构和开发流程等。 2、技术实现 • 基于技术方案的拆解,按照任务目标和产出规范,完成任务/子任务的设计、编码开发和系统功能实现; • 负责核心功能的架构与代码模板的编写,开发与维护资源管理平台核心业务模块,优化程序性能等; • 对编码进行阶段性的讨论和CodeReview,并通过调试优化,推动代码成功部署; • 对开发中和部署后的程序进行必要的维护和迭代,包括值班oncall、bug排查、问题诊断、产品体验改善、性能和成本优化等; • 编写技术文档,如操作手册、故障排除指南、API文档等,以支持日常答疑运维工作。 3、安全、稳定、效率和性能优化 • 运用产品优化技术和方法,实现安全保障和优化系统性能,提高平台系统安全性及客户使用体验。 4、技术预研 • 跟踪和了解国内外资源管理平台技术发展和趋势,结合业务实际需要提供有效的技术支持和架构建议。 5、技术规划 • 理解业务重点,基于业务需求作出高可用、高可靠、高拓展性的技术架构规划和落地。

更新于 2025-09-22
logo of aliyun
社招5年以上技术类-开发

1. 依据公共云统一架构、OpenAPI规范、软件技术栈以及交付运维体系,负责专属云产品的研发与交付。深度参与灵骏裸金属服务器及EGS云计算服务器的研发流程,包括硬件架构预研、方案设计、软硬件结合的系统优化、线上服务质量保证以及提供专家技术支持等关键环节,确保产品从研发到运维的全生命周期高效管理。 2. 跟踪并把握GPU架构设计的发展趋势,探索前沿的GPU架构设计技术。联合高性能网络团队共同设计网络互联架构,针对分布式训练和推理业务场景,在软硬件协同及高性能网络方向上寻找性能优化的新途径,构建阿里云加速计算云服务器的核心竞争力。 3. 研发并持续改进系统的稳定性和安全性,确保平台的安全可靠运行,并不断提升对外服务质量标准。

更新于 2025-06-18
logo of aliyun
社招3年以上云智能集团

1.支持泛互联网和企业客户售前业务拓展,结合云产品技术和AI大模型,为客户定制云化解决方案、AI大模型解决方案,并能协同产品和服务团队进行技术验证,实现业务上云和AI应用场景落地。 2.作为云技术专家,向客户提供业务上云或者支撑关键需求的云计算解决方案,构建弹性、高可用的互联网架构;以最佳云上架构构建业务系统、云底座、监控体系、DevOps、大数据、AI等系统;从成本、效率、稳定性三个维度提升客户云化能力,确保方案可落地、有竞争力。 3.具备典型细分行业如泛互联网(游戏、在线教育、人工智能等)、泛企业(零售、电商等)的市场洞察、解决方案、打法策略及落地经验,能够把握行业的市场和技术发展趋势,推动行业产品解决方案落地。 4.与产品研发团队合作,传递市场需求打磨优化产品竞争力,共同研发或完善满足特定行业,特定应用场景的产品和解决方案。

更新于 2025-09-06