logo of aliyun

阿里云阿里云智能-AI智算集群监管控及算力管理平台技术专家-杭州/北京

社招全职5年以上云智能集团地点:北京 | 杭州状态:招聘

任职要求


1. 拥有5年以上大规模分布式系统设计及研发经验,独立负责过包含多模块的业务子系统,包括接口定义、架构设计及关键分布式问题的技术方案细化等工作。

2. 编程基本功扎实,熟悉数据结构算法,熟练掌握Golang/Java/Python/C++中至少一种开发语言。

3. 系统工程能力扎实过硬,线上稳定性意识强,对于复杂的线上系统具备较强的技术敏感度和故障排查经验;有过线上系统监控体系、变更体系/流程设计和研发经验者优先。

4. 业务感觉良好,有具有出色的抽象设计能力,思路清晰,善于思考,能独立分析和解决问题,能够主导并驱动完整的技术产品项目者优先。

5. 具备较复杂项目的良好管理能力,有项目负责人或者研发团队接口人经验者优先。

6. 团队协作能力良好,有实线或者虚线带人完成技术项目者优先。

7. 熟悉AI框架、云原生、微服务原理和设计模式者优先。

工作职责


1. 建设灵骏监管控系统核心能力,不断提升客户在云上使用灵骏智算集群产品的自动化、智能化程度。

2. 建设智算集群库存管理、节点调度、性能分析、故障自动化处理、租户运维功能等核心体系能力,持续提升灵骏智算集群产品竞争力。

3. 建设系统自身高可用体系,如管控组件故障自动定位、自动恢复、自适应容灾、云原生技术实施及落地等,保障业务持续可用、保障线上系统稳定性。

4. 建设异构算力统一管理及资源调度系统,持续智算集群资源利用率、降低计算成本。

5. 持续跟踪AI智算、云原生及智能运维领域新技术,结合业务场景进行创新。

6. 该职位涉及值班响应的职责,在服务级别协议(SLA)时间内做出对客响应,推动客户问题的解决,改善客户体验。
包括英文材料
分布式系统+
系统设计+
数据结构+
算法+
Go+
Java+
Python+
C+++
微服务+
设计模式+
相关职位

logo of aliyun
社招5年以上云智能集团

1. 建设灵骏监管控系统核心能力,不断提升客户在云上使用灵骏智算集群产品的自动化、智能化程度。 2. 建设智算集群库存管理、节点调度、性能分析、故障自动化处理、租户运维功能等核心体系能力,持续提升灵骏智算集群产品竞争力。 3. 建设系统自身高可用体系,如管控组件故障自动定位、自动恢复、自适应容灾、云原生技术实施及落地等,保障业务持续可用、保障线上系统稳定性。 4. 建设异构算力统一管理及资源调度系统,持续智算集群资源利用率、降低计算成本。 5. 持续跟踪AI智算、云原生及智能运维领域新技术,结合业务场景进行创新。 6. 该职位涉及值班响应的职责,在服务级别协议(SLA)时间内做出对客响应,推动客户问题的解决,改善客户体验。

更新于 2025-07-30
logo of aliyun
社招5年以上技术类-开发

1. 建设灵骏在专属云场景监管控系统核心能力,不断提升专属云客户在云上使用灵骏智算集群产品的自动化、智能化程度。 2. 建设满足专属云业务场景和数据合规要求的智算集群库存管理体系,结合节点调度、性能分析、故障自动化处理、租户运维功能等核心体系能力,持续提升灵骏智算集群产品在专属云市场的产品竞争力。 3. 结合专属云特殊基础设施情况,建设智算集群和管控系统自身高可用体系,如智算集群健康检测、节点与集群异常快速处置体系、管控组件故障自动定位、自动恢复、自适应容灾、云原生技术实施及落地等,保障业务持续可用、保障线上系统稳定性。 4. 建设异构算力统一管理及资源调度系统,持续智算集群资源利用率、降低计算成本。 5. 持续跟踪AI智算、云原生及智能运维领域新技术,结合业务场景进行创新。 6. 该职位涉及值班响应的职责,在服务级别协议(SLA)时间内做出对客响应,推动客户问题的解决,改善客户体验。

更新于 2025-06-30
logo of aliyun
社招5年以上技术类-开发

1. 建设灵骏监管控系统核心能力,不断提升客户在云上使用灵骏智算集群产品的自动化、智能化程度。 2. 建设智算集群库存管理、节点调度、性能分析、故障自动化处理、租户运维功能等核心体系能力,持续提升灵骏智算集群产品竞争力。 3. 建设系统自身高可用体系,如管控组件故障自动定位、自动恢复、自适应容灾、云原生技术实施及落地等,保障业务持续可用、保障线上系统稳定性。 4. 建设异构算力统一管理及资源调度系统,持续智算集群资源利用率、降低计算成本。 5. 持续跟踪AI智算、云原生及智能运维领域新技术,结合业务场景进行创新。 6. 该职位涉及值班响应的职责,在服务级别协议(SLA)时间内做出对客响应,推动客户问题的解决,改善客户体验。

更新于 2025-06-18
logo of aliyun
社招5年以上云智能集团

1. 建设灵骏监管控系统核心能力,不断提升客户在云上使用灵骏智算集群产品的自动化、智能化程度。 2. 建设智算集群库存管理、节点调度、性能分析、故障自动化处理、租户运维功能等核心体系能力,持续提升灵骏智算集群产品竞争力。 3. 建设系统自身高可用体系,如管控组件故障自动定位、自动恢复、自适应容灾、云原生技术实施及落地等,保障业务持续可用、保障线上系统稳定性。 4. 建设异构算力统一管理及资源调度系统,持续智算集群资源利用率、降低计算成本。 5. 持续跟踪AI智算、云原生及智能运维领域新技术,结合业务场景进行创新。 6. 该职位涉及值班响应的职责,在服务级别协议(SLA)时间内做出对客响应,推动客户问题的解决,改善客户体验。

更新于 2025-09-10