阿里云阿里云智能-基础平台开发技术专家-集群运维管理平台-杭州

社招全职5年以上技术类-开发2025-07-03地点：杭州状态：招聘

扫码手机上打开

任职要求

1. 精通java的编程语言，掌握语言底层特性，熟悉相关生态/框架；有良好编程习惯和持续学习多种开发语言的意愿和能力。
2. 5年以上线上系统的设计开发经验，有基于kubernetes，容器平台等云原生环境相关项目…

登录查看完整任职要求

微信扫码，1秒登录

工作职责

1、可独立负责统一运维平台产品的业务域，采用合理的设计模式对系统进行抽象设计，架构具有良好扩展性
2. 负责功能模块的核心功能研发，把控研发进度按时交付高质量代码，并能快速高效解决线上问题
3. 作为资深技术骨干通过技术方案/代码评审/应急复盘等形式，提升团队技术水平，全方位提高工程质量
4. 关注阿里云内各域云产品运维工具及业界相关领域的的演进，理解所负责业务域的系统结构及问题，管理对应业务域的优先级和迭代规划，持续重构优化负责业务域，保持系统的稳定性和扩展性

📮 投递简历 ✨AI模拟面试

难度：

包括英文材料

Java+

编程规范+

还有更多 •••

登录查看完整学习资料

相关职位

蚂蚁集团-算力服务平台研发专家-杭州

社招5年以上技术类-开发

蚂蚁HCS 算力服务是全站通算，智算资源管理的基础设施平台, 通过Kubernetes等容器和平台技术，为上层业务提供云原生服务，AI算力服务，全局资源动态分配，调度节点单集群规模超过万台，同时致力于在系统、业务多个层面，包括os/kernel、容器/PaaS、智能调度/仿真容量等进行技术突破，提高容器系统规模化的资源利用效率，降低大促等各种大规模复杂业务场景下的资源成本，打造智能、高效、稳定的智算基础设施平台本岗位负责在云原生，AI快速发展的背景下，能够面向异构的物理资源，设计和实现大规模的k8s集群节点和资源的管理能力 ● 算力调度产品架构研发：负责设计通算，智算的算力调度，优化的平台架构，实现算力的弹性伸缩，分时调度，能够设计训推混部的统一架构平台，实现算力资源有效利用 ● 节点池架构与异构资源管理：负责节点池架构设计，实现算力节点池的产品化管理能力，支持CPU/GPU等异构资源的统一调度与资源隔离，优化AI异构场景下的节点管理策略，提升大规模集群的资源利用率与任务执行效率。 ● 算力节点生命周期产品化管理：建设节点生命周期的全链路产品化能力，设计并实现节点故障预测与主动运维能力，支持算力节点与模型实例的自动化发现与自愈，能够保障算力的稳定和持续供给。 ● 技术创新与成本优化：探索云原生与AI技术结合的创新场景（如弹性节点池、智能调度算法），推动资源管理效率的持续提升。通过资源预测、库存优化等手段，降低集群运维成本与资源浪费

更新于 2025-06-11杭州

阿里云智能-资源管理平台技术专家-北京/上海/杭州

社招5年以上云智能集团

1、技术方案设计 • 收集、识别、分析平台设计目标及管理需求，围绕资源管理平台确定相应技术方案的目标、范围和交付成果； • 基于需求分析，进行技术可行性分析和方案评审，结合当前的技术架构进行合适的技术选型、功能设计、技术架构、数据架构和开发流程等。 2、技术实现 • 基于技术方案的拆解，按照任务目标和产出规范，完成任务/子任务的设计、编码开发和系统功能实现； • 负责核心功能的架构与代码模板的编写，开发与维护资源管理平台核心业务模块，优化程序性能等； • 对编码进行阶段性的讨论和CodeReview，并通过调试优化，推动代码成功部署； • 对开发中和部署后的程序进行必要的维护和迭代，包括值班oncall、bug排查、问题诊断、产品体验改善、性能和成本优化等； • 编写技术文档，如操作手册、故障排除指南、API文档等，以支持日常答疑运维工作。 3、安全、稳定、效率和性能优化 • 运用产品优化技术和方法，实现安全保障和优化系统性能，提高平台系统安全性及客户使用体验。 4、技术预研 • 跟踪和了解国内外资源管理平台技术发展和趋势，结合业务实际需要提供有效的技术支持和架构建议。 5、技术规划 • 理解业务重点，基于业务需求作出高可用、高可靠、高拓展性的技术架构规划和落地。

更新于 2025-09-22北京|杭州|上海

蚂蚁集团-云原生容器平台研发专家/高级专家-杭州/北京A

社招3年以上技术-基础平台

云原生容器平台是全站资源管理的基础设施平台,通过Pouch，Kubernetes等容器和平台技术，为上层业务提供标准容器服务和全局资源动态分配，调度节点单集群规模超过万台，同时致力于在系统、业务多个层面，包括os/kernel、容器/PaaS、智能调度/仿真容量等进行技术突破，提高容器系统规模化的资源利用效率，降低大促等各种大规模复杂业务场景下的资源成本，打造智能、高效、稳定的金融级基础系统。 1、基于Kubernetes打造高性能、高可用的大规模容器计算平台，通过优化/定制/开发Kubernetes平台核心组件，实现业务对平台的功能及性能需求； 2、负责平台稳定性建设，解决操作系统内核、大规模分布式系统等领域的众多技术挑战，为蚂蚁数十个大规模集群保驾护航； 3、以产品化思维完善基础设施平台的服务设计，在平台之上设计开发新的功能体验，打造面向用户应用的智能基础设施平台。

更新于 2025-07-01北京|杭州

大数据运维开发工程师/专家

社招3年以上D7209

1、负责公司数万节点大数据集群的各项运维管理工作，保障集群服务的高可用性运行； 2、负责超大规模集群服务运维管理平台的设计与研发工作，保障集群服务版本高速迭代以及变更的风险控制； 3、负责集群服务的监控报警体系规划与产品研发迭代，推进监控报警有效性与智能化； 4、负责集群服务容量规划、服务管理与治理规划与产品研发迭代工作。

更新于 2025-04-28北京