logo of aliyun

阿里云阿里云智能-Java研发专家-北京/杭州

社招全职5年以上云智能集团地点:北京 | 杭州状态:招聘

任职要求


• 5年以上IT、互联网、云计算开发相关工作经验,熟悉Java开发语言,理解该语言涉及的基础框架,对您使用过的框架能够了解到它的原理和机制
• 熟悉linux操作系统、常用工具和命令,熟悉mysql数据库,熟练掌握多线程等高并发系统编程和优化技能
• 熟悉分布式系统的设计和应用,熟悉分布式、缓存、消息等机制;能对分布式常用技术进行合理…
登录查看完整任职要求
微信扫码,1秒登录

工作职责


业务支撑
• 参与构建灵骏经营平台的建设,构建AI Infra架构下的全生命周期的资源管理体系,持续提升AI基础设施的资源利用率
• 参与构建阿里云统一的池化服务,涵盖CPU和GPU,构建统一的算力市场服务,持续提升资源的利用率和资源的交付效率
• 通过数据分析等手段,持续推动业务的演进优化,提升资源运营效率
• 持续演进平台和系统模型,提升整体经营平台的技术能力
技术方案设计
• 收集、识别、分析客户需求,并确定技术方案的目标、范围和交付成果
• 基于需求分析,进行技术可行性分析和方案评审,选择合适的技术选型、功能设计、技术架构、数据架构和开发流程等
技术实现
• 基于技术方案的拆解,按照任务目标和产出规范,完成任务/子任务的设计、编码开发和系统功能实现
• 负责核心功能的架构与代码模板的编写,开发与维护系统公用核心模块,技术架构重构、优化等
• 对编码进行阶段性的讨论和CodeReview,并通过调试优化,推动代码成功部署
• 对开发中和部署后的程序进行必要的维护和迭代,包括值班oncall、升级工单处置、bug排查、问题诊断、产品体验改善、性能和成本优化等
稳定性和性能优化
• 制定稳定性策略,寻找并解决产品系统中的潜在风险和瓶颈,覆盖线上疑难杂症问题,确保系统的安全可靠
• 运用产品优化技术和方法,进行性能优化,提高产品稳定性和性能
技术预研
• 跟踪和了解新的产品技术和趋势,根据业务需要提供新的技术支持和建议。
技术规划
• 理解业务战略及重点,基于业务需求作出高可用、高可靠、高拓展性的技术架构规划和落地。
包括英文材料
Java+
Linux+
MySQL+
还有更多 •••
相关职位

logo of aliyun
社招5年以上云智能集团

负责阿里云全球网络的服务化平台研发,包括但不限于平台开发、模型/算法构建、海量数据分析处理等。 具体岗位职责: 1. 负责阿里全球网络的数据分析、网络优化、资源规划等自动化和智能化系统研发,包括但不限于面向稳定性保障、质量优化和成本经营的算法、模型和平台研发; 2. 负责阿里全球网络的质量探测与保障、流量采集与分析、Qos管控、计量计费等系统设计研发; 3. 负责阿里全球网络的服务化系统设计和研发,基于自动化流程与AI大模型,为阿里云上层产品及用户提供自动化、智能化的网络的服务。

更新于 2025-11-06北京|杭州
logo of aliyun
社招5年以上云智能集团

1. 负责阿里云容器产品管控系统的架构设计、功能开发和运维管理,打造稳定易用的容器服务管理平台。 2. 维护高性能、高可用的阿里云容器管控服务,保障业务系统在全球地域的稳定性。 3. 深入参与产品全生命周期研发管理,持续优化提升产品安全、稳定、性能、功能与用户体验,以技术驱动业务增长。 4. 推动系统架构演进及优化,关注前沿技术发展,完成技术预研和技术难点攻关。

更新于 2025-09-09北京|杭州
logo of aliyun
社招5年以上云智能集团

阿里云专有云平台监控团队研发,负责云平台和租户实例的一体化可观测产品建设。 负责平台核心功能编码开发,工作领域范围: 1、云监控产品能力建设,为用户提供数据采集,预处理,汇聚,过滤,告警匹配,抑制,事件聚合等指标监控和告警。以及站点监控,拨测,巡检,故障诊断等可观测服务能力。 2、云监控平台基础设施服务研发工作,如存储引擎,云原生Prometheus,Grafana平台体系,高可用部署架构,大规模弹性伸缩架构设计等。 3、云平台资源管理,服务器和软件自动化运维平台建设。持续推进AI 技术深化战略布局中, 围绕AI 和云计算的基础设施建设、AI基础模型平台、企业级AI应用方向构建核心运维应用场景。

更新于 2025-12-14北京|杭州
logo of aliyun
社招5年以上技术类-开发

1、负责块存储运维支撑系统的的设计、开发工作,制定技术演进路线并保持技术持续迭代升级,进而保障超大规模分布式块存储系统的生产稳定性。 2、负责块存储生产运维规则基线的定义和开发,通过交付部署管控、发布变更管控以及智能检测熔断能力,提供稳定安全可靠的基础环境。 3、针对大规模分布式块存储系统,负责构建安全合规的可观测系统,包括机器、网络、用户、业务指标等各类监控,提供秒级的监控报警,并进行智能分析及根因定位。 4、负责运维能力的下沉,保障块存储运维支撑系统在线上线下能力的一致性。

更新于 2025-04-15北京|杭州