阿里云阿里云智能-资源调度研发专家-杭州/北京

社招全职5年以上云智能集团2026-01-05地点：北京 | 杭州状态：招聘

扫码手机上打开

任职要求

• 5年以上IT、互联网、云计算开发相关工作经验，熟悉Java开发语言，理解该语言涉及的基础框架，对您使用过的框架能够了解到它的原理和机制；
• 熟悉linux操作系统、常用工具和命令，熟悉mysql数据库，熟练掌握多线程等高并发系统编程和优化技能；
• 熟悉分布式系统…

登录查看完整任职要求

微信扫码，1秒登录

工作职责

业务支撑
• 参与构建阿里云弹性计算(通用计算CPU、异构计算GPU)的资源管理、售卖、资源调度、资源供给服务，构建全球计算力的基础设施，持续提升资源的利用率；
• 参与构建阿里云统一的资源调度池化服务，持续提升资源的利用率和资源的交付效率；
• 通过数据分析、结合大模型AI等手段，持续推动产品的演进优化，提升资源调度效率；
• 持续演进平台和系统模型，提升整体经营平台的技术先进性；
技术方案设计
• 收集、识别、分析客户需求，并确定技术方案的目标、范围和交付成果；
• 基于需求分析，进行技术可行性分析和方案评审，选择合适的技术选型、功能设计、技术架构、数据架构和开发流程等；
技术实现
• 基于技术方案的拆解，按照任务目标和产出规范，完成任务/子任务的设计、编码开发和系统功能实现；
• 负责核心功能的架构与代码模板的编写，开发与维护系统公用核心模块，技术架构重构、优化等；
• 针对关键技术难题和业务模块，能够独立设计良好的系统架构和方案，具备良好的架构设计、性能和可扩展性；
• 对编码进行阶段性的讨论和CodeReview，并通过调试优化，推动代码成功部署；
稳定性和性能优化
• 解决产品系统中的潜在风险和瓶颈，覆盖线上疑难杂症问题，确保系统稳定安全可靠地运行；
• 运用产品优化技术和方法，进行性能优化，提高产品稳定性和性能。

📮 投递简历 ✨AI模拟面试

难度：

包括英文材料

Java+

Linux+

MySQL+

多线程+

还有更多 •••

登录查看完整学习资料

相关职位

蚂蚁集团-云原生容器平台研发专家/高级专家-杭州/北京A

社招3年以上技术-基础平台

云原生容器平台是全站资源管理的基础设施平台,通过Pouch，Kubernetes等容器和平台技术，为上层业务提供标准容器服务和全局资源动态分配，调度节点单集群规模超过万台，同时致力于在系统、业务多个层面，包括os/kernel、容器/PaaS、智能调度/仿真容量等进行技术突破，提高容器系统规模化的资源利用效率，降低大促等各种大规模复杂业务场景下的资源成本，打造智能、高效、稳定的金融级基础系统。 1、基于Kubernetes打造高性能、高可用的大规模容器计算平台，通过优化/定制/开发Kubernetes平台核心组件，实现业务对平台的功能及性能需求； 2、负责平台稳定性建设，解决操作系统内核、大规模分布式系统等领域的众多技术挑战，为蚂蚁数十个大规模集群保驾护航； 3、以产品化思维完善基础设施平台的服务设计，在平台之上设计开发新的功能体验，打造面向用户应用的智能基础设施平台。

更新于 2025-07-01北京|杭州

阿里云智能-Serverless 系统高级研发专家-北京/杭州

社招5年以上云智能集团

我们正在寻找一位充满激情、经验丰富的高级技术专家，加入我们的创新团队，共同面对并解决在Serverless GPU和AI应用平台领域中的挑战性问题。 1.负责Serverless计算及AI应用托管平台的架构设计与持续优化。包括异步事件处理、GPU资源调度与弹性伸缩，AI 应用和模型托管等核心功能的设计。保障系统的高可用性、可扩展性和安全性。 2.理解业务战略及重点，并进行相应的技术架构规划并推动落地。能够为开发团队提供专业的技术指导和支持。推动分布式系统、AI应用托管等领域的知识共享和技术创新。 3.深入分析系统性能瓶颈，实施有效的优化策略，提高系统响应速度和资源使用效率。 4.加强与产品、开发、运维等部门的合作，确保技术方案的有效实施，克服项目推进中的各种障碍。 5.为关键客户提供技术支持，针对使用Serverless平台过程中出现的难题给予及时有效的解决方案，维护良好的产品体验。

更新于 2025-09-09北京|杭州

阿里云智能-大模型训推加速平台研发专家/高级专家-北京/杭州

社招3年以上云智能集团

● 设计和实现高效的训练推理框架，提升多节点、多GPU环境下特别是异构算力场景下的计算效率。具备良好的工程实践和算法理论基础，熟悉底层的硬件编程和常见GPU的算子库开发，能对算法的运行效率如速度、显存占用等进行优化，推动算法稳定、高效的运行。 ● 完善优化训练推理框架，针对市面上的国产信创卡能提出统一的优化方案，并推进在底层的通信效率、资源占用、稳定性方面持续建设。 ● 设计并实现能够处理大规模并发请求的系统架构，确保极端负载下的稳定性和性能。完善错误自愈机制，提升平台训练的MFU，打造行业内一流的异构算力混训混推GPU框架。 ● 技术方案设计：主导核心模块技术方案设计与评审，结合业务需求与系统现状，制定可落地的架构规划。 ● 基础服务开发：构建高可用、可扩展的基础服务组件，支持训练/推理框架的快速迭代与稳定部署。 ● 项目管理：主导跨团队协作项目的全生命周期管理，包括需求拆解、排期规划、进度跟踪与风险控制，确保项目高效交付。 ● 持续关注并跟进业界技术发展，比如超长上下文、端到端推理思维链、多模态等方向。

更新于 2025-07-14北京|杭州

阿里云智能-AI智算集群监管控&算力管理平台研发专家-北京/杭州

社招5年以上云智能集团

1. 建设灵骏监管控系统核心能力，不断提升客户在云上使用灵骏智算集群产品的自动化、智能化程度。 2. 建设智算集群库存管理、节点调度、性能分析、故障自动化处理、租户运维功能等核心体系能力，持续提升灵骏智算集群产品竞争力。 3. 建设系统自身高可用体系，如管控组件故障自动定位、自动恢复、自适应容灾、云原生技术实施及落地等，保障业务持续可用、保障线上系统稳定性。 4. 建设异构算力统一管理及资源调度系统，持续智算集群资源利用率、降低计算成本。 5. 持续跟踪AI智算、云原生及智能运维领域新技术，结合业务场景进行创新。 6. 该职位涉及值班响应的职责，在服务级别协议（SLA）时间内做出对客响应，推动客户问题的解决，改善客户体验。

更新于 2025-09-10北京|杭州