阿里云阿里云智能-AI管理平台架构与研发专家-北京/杭州
任职要求
1、本科及以上学历,在云平台开发、AI领域有经验者优先考虑; 2、要求3年以上Java开发的经验,Java基础扎实,熟悉io、多线程、分布式、缓存、消息等机制;熟悉kubernetes相关原理并能做operator的扩展开发和运维; 3、在…
工作职责
1、参与AI管理平台的产品功能规划、设计与研发,实现AI资源、资产管理以及提供AI训练、推理服务; 2、关注AI前沿发展,面向AI开发流程,设计从模型到异构算力的灵活调度和极致效率,打造“云+AI”的云原生AI PaaS平台; 3、面向大规模、分布式的智算场景,实现数据加速、训练弹性、模型推理优化、模型部署优化等平台能力。
阿里云专有云是面向政企行业客户的全栈云平台,为企业级客户(政府、金融、部委、央企等行业)提供产品和服务。该岗位主要负责专有云平台资源管理与运营方向的规划、设计及产品研发。核心职责包括: 1、 贴近专有云政企客户的场景与需求,规划、设计、研发专有云平台的资源管理与运营能力等; 2、在保证稳定、安全的前提下,通过AI能力赋能运营,提升用户的管云与用云效率; 3、紧跟行业发展趋势与动态,参与行业标准制定,致力于打造专有云平台管理与运营的行业领导力。
1. 负责阿里云容器服务系列控制台的前端架构设计与核心功能开发,打造稳定、高效、易用的容器服务管理平台。 2. 主导前端系统架构演进,推动工程化体系建设,落地微前端、性能优化、体验治理等关键技术。 3. 深入参与产品研发管理,持续优化产品稳定安全与用户体验,以技术驱动业务增长。 4. 关注前端前沿技术发展,主导前端新技术的预研与技术难点攻关,探索 AI 与前端融合及研发提效。
我们正在寻找一位充满激情、经验丰富的高级技术专家,加入我们的创新团队,共同面对并解决在Serverless GPU和AI应用平台领域中的挑战性问题。 1.负责Serverless计算及AI应用托管平台的架构设计与持续优化。包括异步事件处理、GPU资源调度与弹性伸缩,AI 应用和模型托管等核心功能的设计。保障系统的高可用性、可扩展性和安全性。 2.理解业务战略及重点,并进行相应的技术架构规划并推动落地。能够为开发团队提供专业的技术指导和支持。推动分布式系统、AI应用托管等领域的知识共享和技术创新。 3.深入分析系统性能瓶颈,实施有效的优化策略,提高系统响应速度和资源使用效率。 4.加强与产品、开发、运维等部门的合作,确保技术方案的有效实施,克服项目推进中的各种障碍。 5.为关键客户提供技术支持,针对使用Serverless平台过程中出现的难题给予及时有效的解决方案,维护良好的产品体验。
业务支撑 • 参与构建灵骏经营平台的建设,构建AI Infra架构下的全生命周期的资源管理体系,持续提升AI基础设施的资源利用率 • 参与构建阿里云统一的池化服务,涵盖CPU和GPU,构建统一的算力市场服务,持续提升资源的利用率和资源的交付效率 • 通过数据分析等手段,持续推动业务的演进优化,提升资源运营效率 • 持续演进平台和系统模型,提升整体经营平台的技术能力 技术方案设计 • 收集、识别、分析客户需求,并确定技术方案的目标、范围和交付成果 • 基于需求分析,进行技术可行性分析和方案评审,选择合适的技术选型、功能设计、技术架构、数据架构和开发流程等 技术实现 • 基于技术方案的拆解,按照任务目标和产出规范,完成任务/子任务的设计、编码开发和系统功能实现 • 负责核心功能的架构与代码模板的编写,开发与维护系统公用核心模块,技术架构重构、优化等 • 对编码进行阶段性的讨论和CodeReview,并通过调试优化,推动代码成功部署 • 对开发中和部署后的程序进行必要的维护和迭代,包括值班oncall、升级工单处置、bug排查、问题诊断、产品体验改善、性能和成本优化等 稳定性和性能优化 • 制定稳定性策略,寻找并解决产品系统中的潜在风险和瓶颈,覆盖线上疑难杂症问题,确保系统的安全可靠 • 运用产品优化技术和方法,进行性能优化,提高产品稳定性和性能 技术预研 • 跟踪和了解新的产品技术和趋势,根据业务需要提供新的技术支持和建议。 技术规划 • 理解业务战略及重点,基于业务需求作出高可用、高可靠、高拓展性的技术架构规划和落地。