阿里云阿里云智能-高级运维工程师/运维专家-阿里云百炼
任职要求
1、计算机及相关专业,5年以上的SRE/Devops经验,有大型互联网公司运维经验者优先。 2、熟悉常见的公共云服务,熟练使用通用云产品(如VPC、ECS、SLB、RDS等),具备云原生运维经验。 3、深入理解Linux系统原理及运维体系,熟悉分布式系统设计。熟练掌握Kubernetes与Docker架构及技术原理,有大规模生产集群的部署、调优及故障…
工作职责
1、稳定性保障与体系建设:负责大模型服务平台及人工智能产品的稳定性保障工作,通过指标建设、预案设计、容量规划、监控完善、建立SOP等手段提升业务可用性与可靠性。 2、高并发流量治理:主导大规模分布式系统及高并发场景下的流量治理方案设计与实施,包括弹性扩缩容以及熔断、限流、降级等容灾策略,确保业务连续性与鲁棒性。 3、新环境部署:在新环境上进行一整套推理系统及其上下游依赖的部署和运维,负责日常模型的上架、性能监测、中间件和底层基建性能监测等。 4、Oncall与应急响应:参与OnCall值班,快速定位并解决生产环境故障,主导重大事件应急响应与复盘;建立故障快速恢复机制,推动根因分析及长效改进措施落地。 5、运维自动化:优化现有部署、监控及维护流程,推动运维自动化与平台化建设,提升研发效率与系统可观测性。负责监控/日志/网络/存储等原生基础设施的保障和工具开发。

职位概述 我们正在寻找充满热情、学习能力强、对云计算和网络安全有浓厚兴趣的应届毕业生加入我们的团队。作为云/云安全运维工程师(应届生),你将从基础开始,在资深工程师的指导下,参与公司云平台(如 AWS, Azure, 阿里云, 腾讯云等)的日常运维、监控、基础架构部署以及初步的安全防护工作。这是一个快速学习和成长的平台,你将接触到业界领先的技术实践,为构建稳定、高效、安全的云环境贡献力量。 核心职责 (应届生培养方向) 1.云平台基础运维: o协助进行云资源(虚拟机、存储、网络、数据库等)的日常监控、状态检查与基础故障排查。 o学习并执行云资源的部署、配置、备份与恢复等基础操作(在指导下)。 o参与云环境成本的基础监控和优化建议。 2.云安全初步实践: o协助监控云平台安全日志和告警,识别潜在的安全风险或异常活动。 o学习和应用基础的安全组/防火墙规则、访问控制策略(IAM/RBAC)配置。 o参与漏洞扫描结果的初步分析和跟踪。 o学习并协助实施基础的安全合规性检查。 3.自动化与效率提升: o学习使用脚本语言(如 Python, Shell)或基础设施即代码工具(如 Terraform, Ansible)进行简单自动化任务的编写与执行。 o参与运维流程文档的编写和维护。 4.协作与学习: o积极向导师和团队成员学习,快速掌握云平台和云安全的核心知识与运维技能。 o参与团队的技术分享与讨论,提出改进建议。 o响应内部用户的基础技术支持请求。
1、负责小天基/神农控制台/ASO/staragent/统一运维平台的前端开发工作,完成产品的前端框架升级,保证流畅的交互体验。 2、结合阿里云整体的视觉设计风格,建设统一的前端基础组件库(组件库、图形库、工程体系、低代码、服务化平台等),保障前端性能及交互一致性的同时,提升研发效率 3、基于阿里云统一的AEM基础设施对用户行为进行记录并建立数据化度量体系,为产品交互及后端性能优化方案或技术选型提供数据支撑 4、负责线上系统的维护和管理,保障系统稳定运行;
1、负责小天基/神农控制台/ASO/staragent/统一运维平台的前端开发工作,完成产品的前端框架升级,保证流畅的交互体验。 2、结合阿里云整体的视觉设计风格,建设统一的前端基础组件库(组件库、图形库、工程体系、低代码、服务化平台等),保障前端性能及交互一致性的同时,提升研发效率 3、基于阿里云统一的AEM基础设施对用户行为进行记录并建立数据化度量体系,为产品交互及后端性能优化方案或技术选型提供数据支撑 4、负责线上系统的维护和管理,保障系统稳定运行;
