阿里云阿里云智能-工程效能专家-AI领域
任职要求
1. 计算机或相关专业本科及以上学历,5 年以上高质量软件系统开发经验,精通 Golang、Python 或 Java中至少一种语言,具备大型工程平台或基础设施的架构与编码能力。 2. 深入理解分布式系统原理,具备复杂系统的设计、实现与调优经验;熟悉高并发、高可用、容错、一致性等核心问题的解决思路。 3. 熟练掌握 Kubernetes、Docker等云原生技术,有在生产环境中构建和维护容器化平台或测试基础设施的实际经验;熟悉 GitOps、ArgoCD等工具…
工作职责
随着通用人工智能技术的快速发展,GPU算力的需求持续飙升,加入阿里云人工智能平台,您将有机会运用卓越工程理念并实践,构建支撑智算中心的工程底座,为AI智算平台的稳定运行保驾护航: 1. 基于先进的云原生技术和devops理念,系统化分析、设计和解决阿里云PAI团队研发过程中的效率质量问题。 2. CI/CD:基于效能领域先进的GitOps理念,建设一流的CI/CD平台,提升研发体验和效率;沉淀易用、高效、可复用的平台工具,整体提升云产品持续交付的效率。 3. 测试环境维护:使用k8s/docker/golang等云原生技术,建设稳定、高效、易维护的多架构容器化测试环境,提升测试效率。 4. 异常巡检能力:搭建自动化巡检、异常检测与告警联动系统,对预发和线上环境的训练任务、推理服务、平台组件异常进行持续健康监测。
1. 负责阿里云人工智能及大数据平台重点项目/项目集全生命周期管理,协同阿里云各合作团队,制定项目计划,驱动项目进程,有效把控风险,确保项目目标达成; 2. 负责阿里云人工智能及大数据平台产品迭代管理,组织相关方进行战略目标拆解,通过产品迭代的方式,逐步实现产品战略目标的衔接落地; 3. 负责团队研发效能体系建设,通过数字化管理方式,洞察研发过程中的问题和瓶颈,提出合理的改进方案并落地推进,持续提升团队研发效率和质量; 4. 持续总结并沉淀项目管理经验,优化项目管理方法论和工具链,为团队提供流程、工具、方法支持,提升团队组织级项目管理能力。
1)战略组织伙伴 深度理解AI业务战略与研发生命周期,前瞻性地进行组织诊断,为团队的组织架构设计、人才梯队规划和核心能力建设提供专业方案并推动落地。 将业务战略解码为清晰的人才策略,确保组织能力能够支撑业务的快速迭代与长期发展。 2)人才与发展策动者 为AI团队量身打造组织与人才发展方案,紧密携手业务负责人,落地关键人才的“选、用、育、留”全周期管理。 与招聘团队紧密协作,制定顶尖AI人才的画像、寻访与吸引策略,提升关键岗位的招聘质量与效率。 设计并推行符合AI研发节奏的绩效管理与人才发展体系,尤其关注技术专家的职业路径发展与成长赋能。 基于市场洞察,为AI人才提供有竞争力的全面薪酬激励方案建议,确保我们能吸引并保留最优秀的人才。 3)文化与组织效能推动者 作为团队文化和价值观的守护者与践行者,通过策划和实施各类组织发展项目,营造开放、协作、极致创新和高度信任的工程师文化。 打造多元、流畅的沟通机制,确保信息在组织内高效透明流转,提升团队凝聚力与组织效能。 高效地在团队内部署集团的人力资源政策、流程与变革项目,并根据AI团队的独特性进行适配与优化。
Steam 部门设立于2025年1月,正如蒸汽机(Steam Engine)在工业革命 1.0 中所象征的创新开端,我们也希望以此之名,积极探索云与 AI 结合的产品方向。 在当前大模型能力日新月异的情况下,唯有坚持自己的核心价值主张和对未来的判断,且面向半年至一年后的大模型能力打造应用产品,才有一战的可能。对于大模型领域的未来进展,我们相信: 1) 大模型的智商会快速接近乃至与人类齐平; 2) 大模型的多模态理解能力,特别是视觉能力将得到长足发展; 3) 在1和2前提下,信息处理类工作将最终被 AI 接管,大量替代真人员工。 对于阿里云如何做到云+ AI,我们认为"云的最大客户会是 AI",我们的行动路径是让更多现实世界的工作量从“人类脑力劳动”转移到“云端 AI 消耗的计算资源”。 在这些认知下,我们确定了“高效完成重复任务,完整替代人类工作”的产品目标,如果你也相信这个未来,欢迎上船。 1、AI产品质量保障体系构建:主导AI产品(含Agent、模型服务等)的全生命周期质量保障,制定测试策略、设计测试方案与质量标准,推动研发流程优化; 2、效能提升与自动化:通过持续集成(CI/CD)、自动化测试平台及线上质量监控体系,提升团队测试效率与问题拦截能力; 3、复杂项目质量管控:主导中大型AI项目的质量保障,包括测试策略制定、流程优化、风险预警及质量复盘,确保关键节点交付质量; 4、技术驱动与协作:推动测试技术创新(如AI场景专项测试、自动化工具链),协同研发团队提升代码质量与交付效率。
1、深入理解客户的业务场景与技术架构,与客户的架构、开发及运维团队紧密协同,全面评估其现有云上应用架构与产品使用现状,围绕稳定性、可观测性与成本效能,设计并推动落地高可用、高韧性、高易用的云上优化方案。覆盖领域包括但不限于:云原生监控体系建设、风险主动发现机制、混沌工程与容灾演练、业务快速恢复与降级策略、微服务架构演进、FinOps成本治理及高可用架构重构等。 2、联动阿里云内部产品、研发、解决方案及技术服务团队,以客户架构视角驱动问题闭环、重大活动护航、风险治理与架构治理,沉淀可复用的最佳实践、方法论及工具产品,主动识别客户痛点并开展高阶专项服务。 3、持续追踪客户关键稳定性问题,推动根因分析与长效治理机制建设,并反哺阿里云产品与服务体系的持续优化与能力升级。 4、主导或深度参与客户云上架构改造项目的落地实施,通过架构调优、资源治理与技术选型,持续提升系统性能、业务连续性与资源使用效率,实现“稳、快、省”的云上运营目标。