logo of aliyun

阿里云阿里云智能-工程效能专家-AI领域

社招全职5年以上云智能集团地点:北京 | 杭州状态:招聘

任职要求


1. 计算机或相关专业本科及以上学历,5 年以上高质量软件系统开发经验,精通 GolangPythonJava中至少一种语言,具备大型工程平台或基础设施的架构与编码能力。
2. 深入理解分布式系统原理,具备复杂系统的设计、实现与调优经验;熟悉高并发高可用、容错、一致性等核心问题的解决思路。
3. 熟练掌握 Kubernetes、Docker等云原生技术,有在生产环境中构建和维护容器化平台或测试基础设施的实际经验;熟悉 GitOps、ArgoCD等工具…
登录查看完整任职要求
微信扫码,1秒登录

工作职责


随着通用人工智能技术的快速发展,GPU算力的需求持续飙升,加入阿里云人工智能平台,您将有机会运用卓越工程理念并实践,构建支撑智算中心的工程底座,为AI智算平台的稳定运行保驾护航:

1. 基于先进的云原生技术和devops理念,系统化分析、设计和解决阿里云PAI团队研发过程中的效率质量问题。
2. CI/CD:基于效能领域先进的GitOps理念,建设一流的CI/CD平台,提升研发体验和效率;沉淀易用、高效、可复用的平台工具,整体提升云产品持续交付的效率。
3. 测试环境维护:使用k8s/docker/golang等云原生技术,建设稳定、高效、易维护的多架构容器化测试环境,提升测试效率。
4. 异常巡检能力:搭建自动化巡检、异常检测与告警联动系统,对预发和线上环境的训练任务、推理服务、平台组件异常进行持续健康监测。
包括英文材料
学历+
Go+
Python+
Java+
分布式系统+
高并发+
高可用+
还有更多 •••
相关职位

logo of aliyun
社招5年以上云智能集团

1. 负责阿里云人工智能及大数据平台重点项目/项目集全生命周期管理,协同阿里云各合作团队,制定项目计划,驱动项目进程,有效把控风险,确保项目目标达成; 2. 负责阿里云人工智能及大数据平台产品迭代管理,组织相关方进行战略目标拆解,通过产品迭代的方式,逐步实现产品战略目标的衔接落地; 3. 负责团队研发效能体系建设,通过数字化管理方式,洞察研发过程中的问题和瓶颈,提出合理的改进方案并落地推进,持续提升团队研发效率和质量; 4. 持续总结并沉淀项目管理经验,优化项目管理方法论和工具链,为团队提供流程、工具、方法支持,提升团队组织级项目管理能力。

更新于 2026-04-02北京|杭州
logo of aligenie
社招5年以上

1. 负责阿里云人工智能及大数据平台重点项目/项目集全生命周期管理,协同阿里云各合作团队,制定项目计划,驱动项目进程,有效把控风险,确保项目目标达成; 2. 负责阿里云人工智能及大数据平台产品迭代管理,组织相关方进行战略目标拆解,通过产品迭代的方式,逐步实现产品战略目标的衔接落地; 3. 负责团队研发效能体系建设,通过数字化管理方式,洞察研发过程中的问题和瓶颈,提出合理的改进方案并落地推进,持续提升团队研发效率和质量; 4. 持续总结并沉淀项目管理经验,优化项目管理方法论和工具链,为团队提供流程、工具、方法支持,提升团队组织级项目管理能力。

更新于 2026-04-02北京|杭州
logo of aliyun
社招5年以上云智能集团

● 负责PAI平台资源调度模块的设计与开发,全面支撑模型训练、评估及推理阶段的资源调度需求。 ● 负责GPU、CPU 及其他异构硬件资源的统一编排与高效调度,实现对稳态资源、潮汐资源、混部资源以及多云环境下资源的合理分配与协同利用。 ● 聚焦资源复用与集群利用率提升,结合大模型场景中预训练、后训练、离线推理、评估等任务的负载特征,优化排队策略、优先级管理与抢占机制,最大化整体资源效能。 ● 构建端到端的故障可观测体系,针对训练/推理任务中频发的软硬件异常(如 GPU XID 错误、网络超时、节点失联等),完善日志、指标、事件的采集与关联分析能力,实现问题快速定位与根因追溯。 ● 研发智能诊断与自动容错机制,基于历史故障模式与运行时上下文,开发自动化诊断引擎,支持动态降级、局部重试、弹性扩缩容等策略,减少人工干预,提升作业自愈能力。 ● 打造训练过程可视化与用户体验闭环,建设面向用户的训练状态看板,直观呈现任务健康度、资源使用、通信瓶颈及异常告警,并提供可操作建议,降低使用门槛,加速问题反馈与迭代优化。

更新于 2026-03-24北京|杭州
logo of alibaba
社招5年以上

1)战略组织伙伴 深度理解AI业务战略与研发生命周期,前瞻性地进行组织诊断,为团队的组织架构设计、人才梯队规划和核心能力建设提供专业方案并推动落地。 将业务战略解码为清晰的人才策略,确保组织能力能够支撑业务的快速迭代与长期发展。 2)人才与发展策动者 为AI团队量身打造组织与人才发展方案,紧密携手业务负责人,落地关键人才的“选、用、育、留”全周期管理。 与招聘团队紧密协作,制定顶尖AI人才的画像、寻访与吸引策略,提升关键岗位的招聘质量与效率。 设计并推行符合AI研发节奏的绩效管理与人才发展体系,尤其关注技术专家的职业路径发展与成长赋能。 基于市场洞察,为AI人才提供有竞争力的全面薪酬激励方案建议,确保我们能吸引并保留最优秀的人才。 3)文化与组织效能推动者 作为团队文化和价值观的守护者与践行者,通过策划和实施各类组织发展项目,营造开放、协作、极致创新和高度信任的工程师文化。 打造多元、流畅的沟通机制,确保信息在组织内高效透明流转,提升团队凝聚力与组织效能。 高效地在团队内部署集团的人力资源政策、流程与变革项目,并根据AI团队的独特性进行适配与优化。

更新于 2025-09-18杭州