logo of aliyun

阿里云阿里云智能-高级开发工程师-云内可观测

社招全职3年以上技术类-开发地点:北京 | 杭州状态:招聘

任职要求


1. 3年以上后端或客户端研发经验。
2. 对云原生有一定了解,熟悉常用的云原生技术。
3. 熟悉常用的可观测(监控)工具
专业技能:
1. 掌握JAVA/Go某种语言,理解该语言的底层核心和常用框架。
2. 熟悉虚拟化、容器、容器编排技术,对k8s有深度掌握和丰富经验。
3. 熟悉常用设计模式,熟悉分布式架构设计,熟悉消息、缓存、负载均衡、RPC等机制。
4. 熟悉DDD(领域驱动设计)的思想和方法,有一定的实践经验。
5. 熟练掌握JAVA编程技术、并发,主流开源应用框架和中间件,如SpringSpringBootmysqlredisMQ等;
8. 较强的代码能力,与开发规范意识,扎实的技术功底。

工作职责


1、技术方案设计
• 收集、识别、分析客户需求,并确定技术方案的目标、范围和交付成果
• 基于需求分析,进行技术可行性分析和方案评审,选择合适的技术选型、功能设计、技术架构、数据架构和开发流程等
2、技术实现
• 基于技术方案的拆解,按照任务目标和产出规范,完成任务/子任务的设计、编码开发和系统功能实现
• 负责核心功能的架构与代码模板的编写,开发与维护系统公用核心模块,技术架构重构、优化等
• 对编码进行阶段性的讨论和CodeReview,并通过调试优化,推动代码成功部署
• 对开发中和部署后的程序进行必要的维护和迭代,包括值班oncall、升级工单处置、bug排查、问题诊断、产品体验改善、性能和成本优化等
3、稳定性和性能优化
• 制定稳定性策略,寻找并解决产品系统中的潜在风险和瓶颈,覆盖线上疑难杂症问题,确保系统的安全可靠
• 运用产品优化技术和方法,进行性能优化,提高产品稳定性和性能
4、技术预研
• 跟踪和了解新的产品技术和趋势,根据业务需要提供新的技术支持和建议。
5、技术规划
• 理解业务战略及重点,基于业务需求作出高可用、高可靠、高拓展性的技术架构规划和落地。
包括英文材料
Java+
Go+
Kubernetes+
设计模式+
系统设计+
缓存+
RPC+
DDD+
中间件+
Spring+
Spring Boot+
MySQL+
Redis+
消息队列+
相关职位

logo of aliyun
社招5年以上技术类-前端

1、负责小天基/神农控制台/ASO/staragent/统一运维平台的前端开发工作,完成产品的前端框架升级,保证流畅的交互体验。 2、结合阿里云整体的视觉设计风格,建设统一的前端基础组件库(组件库、图形库、工程体系、低代码、服务化平台等),保障前端性能及交互一致性的同时,提升研发效率 3、基于阿里云统一的AEM基础设施对用户行为进行记录并建立数据化度量体系,为产品交互及后端性能优化方案或技术选型提供数据支撑 4、负责线上系统的维护和管理,保障系统稳定运行;

更新于 2025-04-02
logo of aliyun
社招5年以上技术类-前端

1、负责小天基/神农控制台/ASO/staragent/统一运维平台的前端开发工作,完成产品的前端框架升级,保证流畅的交互体验。 2、结合阿里云整体的视觉设计风格,建设统一的前端基础组件库(组件库、图形库、工程体系、低代码、服务化平台等),保障前端性能及交互一致性的同时,提升研发效率 3、基于阿里云统一的AEM基础设施对用户行为进行记录并建立数据化度量体系,为产品交互及后端性能优化方案或技术选型提供数据支撑 4、负责线上系统的维护和管理,保障系统稳定运行;

更新于 2025-04-02
logo of aliyun
社招3年以上云智能集团

1、运维可观测链路建设 • 负责全链路稳定性解决方案的制定与执行,包括交付、变更、应急及稳定性专项建设; • 事前:建立并持续优化产品运维的监控机制,研发并维护相应的运维监控平台/工具; • 事中:建立并持续优化产品运维的预警机制,确保故障能够被快速发现、通报、定位及处理; • 事后:快速分析、诊断、定位问题,并能够协同开发人员解决问题;建立健全快速恢复服务机制,降低业务受损程度,确保产品、业务稳定运行;牵头问题复盘工作,通过架构优化等根治引起不可用的问题。 2、运维平台产品化与智能化建设 • 设计、研发并维护智能化的运维平台、工具、系统,帮助解决生产系统遇到的容量、性能、稳定性等问题,提升性能与效率; • 负责运营质量数据化分析工作,通过对日常运维指标、问题、风险、稳定性结果进行分析和研究,建立模型、计算ROI/TCO来解决、优化和落地给出运营优化建议; • 负责高可用体系建设,如巡检、故障自动定位、自动恢复、自适应容灾、云原生技术实施及落地等,保障业务持续可用。 • 负责运维能力的抽象与设计,通过平台实现运维能力产品化,建立配套的标准运维手册,提升运维的易用性/完整性和降低误操作风险(专有云); • 将运维服务产品化能力传达给客户,建设客户心智,提升运维服务效率(反馈增加) 3、运维服务体系建设 • 建设本领域相关的运维体系(如变更标准,重保体系,客情预警等),确保本领域产品运维&稳定性能力提升; • 牵头制定本领域内的相关新产品\新功能的的SLA协议承诺; • 基于SLA要求,评审新产品\新功能的架构是否可用、安全; • 通过日常运维活动优化产品稳定性,达成SLA目标; 4、容量规划与调优 • 基于年度的产品线规划,进行预算编制、容量规划与置备,协调各方持续滚动进行存储、计算等资源消耗的预测与估算; • 通过技术手段提升线上资源利用效率,降低物理资源成本(如结合对于业务波峰/波谷等的预测,进行混合部署)。 • 通过云平台与云产品的容量模型设计与调优以及配套的工具建设,降低云平台因为资源问题带来的稳定性风险并提升资源利用率(专有云) 5、安全保障建设 • 日常on call值班,及时响应告警及技术支持升级的疑难问题,并解决; • 负责集团级重大活动(如双11等)的运维保障工作; • 配合安全团队,梳理安全漏洞,优化相关技术架构,提升产品与系统的安全性。 • 负责云平台风险管理能力建设,通过风险策略库建设提前识别风险,建立风险预警和治理机制,推动云平台风险治理提升客户稳定性(专有云) 6、平台架构升级 • 负责系统架构升级,如内核升级、网络架构升级、存算分离、服务跨机房迁移、服务上云 • 负责容灾架构设计并实施,如同城容灾、异地多活等 • 负责云平台软硬件生命周期设计,制定升级方案,通过商务法务产品与服务策略制定,推动客户云平台持续演进(专有云) • 负责云平台的分层设计,并通过依赖与兼容性治理与优化,实现云平台分层解耦,提升交付、升级的灵活性与稳定性(专有云)

更新于 2025-10-10
logo of xiaohongshu
社招1年以上后端开发

小红书基础设施网络平台致力于实现网络监管控的平台化,自动化,智能化。建设多场景、高可用、高性能可观测系统。覆盖设备基础监控,流量分析,云网络,拨测,内网质量等多种场景。