阿里云阿里云智能-管控系统平台工程研发专家-北京/杭州

社招全职5年以上云智能集团2025-10-13地点：北京 | 杭州状态：招聘

扫码手机上打开

任职要求

• 5年以上IT、互联网、云计算开发、运维相关工作经验；
• 精通一门主流的后端研发语言，如 Java、Rust、Golang等。熟悉常用的基础框架，有后端分布式系统研发的实际经验；
• 熟练掌握分布式系统设计的基本原理和最佳实践，熟悉RPC框架、缓存、消息系统等的技术原理并有相关的使用经验；
• 熟练掌握Mysql等关系型数据库的原理和使用，有数据库性能优化经验；
• 具备对所负责研发模块进行快速上线、快速响应和应急处理的能力；
• 能设计系统架构升级和…

登录查看完整任职要求

微信扫码，1秒登录

工作职责

1、技术方案设计
• 参与云产品管控系统的架构升级和优化工作，根据管控系统的稳定性、性能、安全等目标设计相应的技术方案，并明确方案目标、范围和交付成果；
• 基于需求进行技术可行性分析和方案评审，结合当前的技术架构进行合适的技术选型和功能设计。完成技术架构和数据架构设计，并推进开发流程。

2、技术实现
• 基于技术方案的拆解，按照任务目标和产出规范，完成任务/子任务的设计、编码开发和系统功能实现；
• 对编码进行阶段性的讨论和CodeReview，完成功能测试和性能测试，推动代码成功部署；
• 对开发中和部署后的程序进行必要的维护和迭代，包括值班oncall、bug排查、问题诊断、产品体验改善、性能和成本优化等；
• 编写技术文档，如操作手册、故障排除指南、API文档等，以支持日常答疑运维工作。

3、安全、稳定、效率和性能优化
• 通过数据分析，稳定性研究和性能测试，持续推动升级和优化云产品管控架构，实现高可用、高性能的管控系统；
• 运用产品优化技术和方法，实现安全保障和优化系统性能，提高阿里云产品管控安全性，同时帮助客户提效，给客户更好的体验。

4、技术预研
• 跟踪和了解国内外云计算技术和分布式计算技术的发展和趋势，结合业务实际需要提供有效的技术支持和架构建议。

5、技术规划
• 理解业务重点，基于业务需求做出高可用、高可靠、高拓展性的技术架构规划和落地。

📮 投递简历 ✨AI模拟面试

难度：

包括英文材料

Java+

Rust+

Go+

分布式系统+

还有更多 •••

登录查看完整学习资料

相关职位

AI推理平台-大模型KVCache管控系统技术专家-杭州/北京

社招4年以上

1. 负责 LLM 推理场景下 KVCache 管控系统的架构设计与工程实现，建设面向大规模 GPU 集群的 KVCache 资源管理、容量规划、配额控制、生命周期管理与调度编排能力，提升 KVCache 资源利用率与系统稳定性。 2. 设计 KVCache 全局管控与调度策略，结合请求特征、模型类型、上下文长度、Prefix 复用关系、租户优先级与集群资源状态，实现 KVCache 的准入控制、淘汰策略、热点识别、跨实例复用、跨节点迁移与负载均衡。 3. 建设 KVCache 多级存储管控能力，统一管理 GPU HBM / CPU DRAM / NVMe SSD / 远端存储中的 Cache 资源，设计 Cache 分层、回收、预热、预取、降级与故障恢复机制，支撑长上下文、多轮对话、Agent 工作流等复杂推理场景。 4. 负责 KVCache 管控系统与主流推理引擎及调度系统的集成，围绕 vLLM / SGLang / TensorRT-LLM / RTP-LLM 等框架，抽象统一的 KVCache 元数据、状态同步、资源上报与控制接口，支撑异构推理后端的统一纳管。 5. 建设 KVCache 可观测性与稳定性体系，设计 Cache Hit Rate、复用收益、内存水位、碎片率、迁移延迟、Offload 延迟、淘汰次数、请求级 Cache 轨迹等核心指标，支持容量评估、异常诊断、策略调优与线上问题定位。 6. 参与大规模推理集群的端到端性能优化，分析 KVCache 管控策略对 TTFT、TPOT、吞吐、显存利用率、GPU 利用率和请求成功率的影响，持续优化系统在高并发、多租户、长上下文场景下的服务质量。

更新于 2026-06-16北京|杭州

AI推理平台-大模型KVCache管控系统技术专家-杭州/北京

社招4年以上

更新于 2026-06-16北京|杭州

阿里云智能-管控系统网络研发专家-北京/杭州

社招5年以上云智能集团

1. 技术方案设计 • 与PD紧密合作，收集、识别、分析客户需求，结合自身行业经验分析并论证需求合理性；在需求明确后，确定技术方案的目标、范围和交付成果； • 完成客户需求的技术方案设计，结合需求场景选择合理的技术架构，满足性能与稳定性要求，并保持足够的可扩展性，同时确保ROI（投入产出比）合理。 2. 技术实现 • 基于DDD（领域驱动设计）开发方法，按时完成弹性网卡（ENI）、安全组（Security Group）业务需求的开发，高质量交付； • 对编码进行阶段性讨论和Code Review，并通过调试优化，推动代码成功部署； • 在Code Review过程中，能够保持热情，及时给予年轻工程师经验指导，帮助其快速成长； • 对开发中和部署后的程序进行维护和迭代，包括值班on-call、升级工单处理、缺陷排查、问题诊断、产品体验改善、性能和成本优化等。 3. 稳定性和性能优化 • 与架构和SRE团队紧密合作，针对负责的功能制定稳定性策略，寻找并解决产品系统中的潜在风险和瓶颈，处理线上疑难杂症问题，确保系统的安全可靠； • 使用DDD（领域驱动设计）开发方法对存量代码进行重构，持续改善系统设计、提升系统性能并消除稳定性隐患。 4. 技术预研 • 定期调研业界对标产品的产品形态并结合客户反馈的业务诉求，分析并转化为ECS弹性网卡、ECS安全组等平台产品的需求；协同PD保持上述产品能力的先进性。 5. 技术规划 • 定期跟踪系统在性能和稳定性相关指标方面的变化趋势，及时分析原因，发现弹性能力演进的机会点，并提前设定技术架构演进的前瞻性目标，开展POC验证； • 对分布式技术、高性能通信技术、数据库技术等保持好奇心和敏锐性，结合业务实际做好技术预研、分享和应用。

更新于 2025-11-26北京|杭州

阿里云智能-块存储管控系统研发专家-杭州/成都

社招5年以上云智能集团

1. 负责阿里云块存储管控系统的研发工作，为云服务器ECS、容器服务ACK/ACS、智能计算等核心业务提供低时延、持久化、高可靠的块存储支持，全面支撑AI训练、大规模容器集群等高性能云原生场景。 2. 承担块存储管控系统功能的全周期研发，包括需求分析、架构设计、核心开发、测试验证与发布上线，保障管控链路的高性能与高可用。重点提升系统在高并发请求下的弹性伸缩能力，优化资源调度效率与响应延迟。 3. 主导块存储管控架构的持续演进与重构，面向AI和容器等业务特点，推进系统解耦、故障隔离、容灾自愈等能力建设，降低爆炸半径，提升整体稳定性和可扩展性。通过端到端方案设计与跨模块协同，推动复杂技术问题的根本性解决。 4. 负责系统的稳定性保障工作，参与重大故障应急响应与根因定位，完成疑难问题排查与长效改进机制落地。结合运维数据与业务反馈，持续优化监控体系、诊断能力和自动化运维水平，提升系统可维护性与交付效率。 5. 打造面向未来的智能块存储控制平面，构建支撑大规模资源、具备云原生敏捷性的下一代存储管控架构。

更新于 2026-01-09成都|杭州