logo of aliyun

阿里云阿里云智能-AI资源管理技术专家-杭州

社招全职5年以上云智能集团地点:杭州状态:招聘

任职要求


1、理工科专业,计算机、网络、电信、自动化、信息学相关专业优先;
2、5 年以上工作经验,具有一定的AI/云计算相关经验;
3、具备较强的数据处理和分析能力,能从数据中发现问题、解决…
登录查看完整任职要求
微信扫码,1秒登录

工作职责


1、负责GPU相关产品的资源规划,保障资源合理布局和高效运转;
2、负责重大项目资源交付方案设计和执行落地;
3、通过数据驱动,降低离线资源比例,提升经营健康度;
4、协同建设相关平台能力。
包括英文材料
相关职位

logo of aliyun
社招5年以上云智能集团

1、技术方案设计 • 收集、识别、分析平台设计目标及管理需求,围绕资源管理平台确定相应技术方案的目标、范围和交付成果; • 基于需求分析,进行技术可行性分析和方案评审,结合当前的技术架构进行合适的技术选型、功能设计、技术架构、数据架构和开发流程等。 2、技术实现 • 基于技术方案的拆解,按照任务目标和产出规范,完成任务/子任务的设计、编码开发和系统功能实现; • 负责核心功能的架构与代码模板的编写,开发与维护资源管理平台核心业务模块,优化程序性能等; • 对编码进行阶段性的讨论和CodeReview,并通过调试优化,推动代码成功部署; • 对开发中和部署后的程序进行必要的维护和迭代,包括值班oncall、bug排查、问题诊断、产品体验改善、性能和成本优化等; • 编写技术文档,如操作手册、故障排除指南、API文档等,以支持日常答疑运维工作。 3、安全、稳定、效率和性能优化 • 运用产品优化技术和方法,实现安全保障和优化系统性能,提高平台系统安全性及客户使用体验。 4、技术预研 • 跟踪和了解国内外资源管理平台技术发展和趋势,结合业务实际需要提供有效的技术支持和架构建议。 5、技术规划 • 理解业务重点,基于业务需求作出高可用、高可靠、高拓展性的技术架构规划和落地。

更新于 2025-09-22北京|杭州|上海
logo of aliyun
社招5年以上技术类-开发

1. 建设灵骏监管控系统核心能力,不断提升客户在云上使用灵骏智算集群产品的自动化、智能化程度。 2. 建设智算集群库存管理、节点调度、性能分析、故障自动化处理、租户运维功能等核心体系能力,持续提升灵骏智算集群产品竞争力。 3. 建设系统自身高可用体系,如管控组件故障自动定位、自动恢复、自适应容灾、云原生技术实施及落地等,保障业务持续可用、保障线上系统稳定性。 4. 建设异构算力统一管理及资源调度系统,持续智算集群资源利用率、降低计算成本。 5. 持续跟踪AI智算、云原生及智能运维领域新技术,结合业务场景进行创新。 6. 该职位涉及值班响应的职责,在服务级别协议(SLA)时间内做出对客响应,推动客户问题的解决,改善客户体验。

更新于 2025-06-18北京|杭州
logo of aliyun
社招5年以上云智能集团

1. 建设灵骏监管控系统核心能力,不断提升客户在云上使用灵骏智算集群产品的自动化、智能化程度。 2. 建设智算集群库存管理、节点调度、性能分析、故障自动化处理、租户运维功能等核心体系能力,持续提升灵骏智算集群产品竞争力。 3. 建设系统自身高可用体系,如管控组件故障自动定位、自动恢复、自适应容灾、云原生技术实施及落地等,保障业务持续可用、保障线上系统稳定性。 4. 建设异构算力统一管理及资源调度系统,持续智算集群资源利用率、降低计算成本。 5. 持续跟踪AI智算、云原生及智能运维领域新技术,结合业务场景进行创新。 6. 该职位涉及值班响应的职责,在服务级别协议(SLA)时间内做出对客响应,推动客户问题的解决,改善客户体验。

更新于 2025-09-10北京|杭州
logo of aliyun
社招5年以上技术类-开发

1. 负责灵骏集群中GPU资源的全面监控、质量巡检及故障预测,通过智能化运维手段确保系统的高可用性和稳定性,提前识别并解决潜在问题; 2. 保障灵骏与集团在线POD的集群资源管理与切分业务,优化资源分配策略,提高资源利用率和任务处理效率,支持大规模分布式计算的需求; 3. 开发和维护KuberGPU技术,实现GPU资源的高效切分与容器化部署,支持包括灵骏客户、集团内部需求以及阿里云服务(ACS)产品在内的多种应用场景,提供灵活且强大的GPU资源共享解决方案; 4. 开发和实施容器热迁移技术,提升集群灵活性和容错能力,确保在不停机的情况下进行系统维护和资源调度,进一步增强用户体验和服务连续性。

更新于 2025-06-18杭州