logo of aliyun

阿里云阿里云智能-容器运行时技术专家-AI领域-杭州/北京

社招全职5年以上云智能集团地点:北京 | 杭州状态:招聘

任职要求


1.计算机、软件工程及相关专业,计算机基础知识与编程基本功扎实,熟悉Go/Python/C++至少一种。
2.熟悉至少一项云原生技术(如Docker/Containerd/KataContainer/gVisor, Kubernetes等),有相关开源项目贡献或者大规模开发运维经验者优先。
3.熟悉分布式计算/存储/调度系统的开…
登录查看完整任职要求
微信扫码,1秒登录

工作职责


1.负责阿里云容器平台在AI基础设施与应用架构方向的产品研发与技术演进。
2.主导大规模异构资源(GPU/NPU/RDMA等)集群的调度、管理与性能优化,提升资源利用效率、系统稳定性与运行性能。
3.构建面向AI与Agent应用的Serverless容器算力产品。
4.基于Kubernetes打造面向大模型训练/推理、大规模数据处理及Agent应用的云原生基础设施产品与解决方案。
5.推动云原生AI领域前沿技术预研、落地及开源生态建设,持续引领技术创新与行业实践。
包括英文材料
Go+
Python+
C+++
还有更多 •••
相关职位

logo of aliyun
社招5年以上技术类-开发

1. 参与kuberGPU软件产品的设计与研发,包括kuberGPU软件的迭代研发,性能评估及优化,兼容性提升,新GPU的适配等。 2. 负责kuberGPU在云上的落地,包括与相关团队沟通和协调对接和部署工作,以及针对专属云做对应的kuberGPU软件的适配工作。 3. 保障kuberGPU产品在云上的的稳定性,包括定位和分析上线后遇到的问题,及时进行故障排查和修复。 4. 针对客户的需求和未来业内技术趋势,为业务方提供新的技术支持和建议,并作出高可用、高可靠、高拓展性的技术架构规划和落地。

更新于 2025-06-18北京|杭州|上海
logo of aliyun
社招8年以上云智能集团

1. 技术前瞻与需求洞察:深度跟踪容器、云原生技术前沿(如 Kubernetes 新特性、Serverless 演进、AI 训练/推理、AI Agent 架构、微服务治理等),精准识别内/外客户在不同场景中的核心需求,驱动产品创新方向与技术战略落地; 2. 竞品与市场分析:持续分析主流云厂商在容器编排、Serverless 算力、AI 训推方案、AI Agent 等领域的竞品动态,输出深度市场洞察报告,支撑产品差异化设计与战略决策,不断增强产品竞争力; 3. 产品全生命周期管理:主导核心容器产品(如 ACK、ACS、ACR 等)的功能规划、需求定义、设计及商业化运营,从需求挖掘到规模化落地,推动市场份额与用户满意度提升; 4. 端到端解决方案设计:针对企业客户复杂业务场景(如 AI 训练/推理、AI Agent 应用、大数据应用、多云微服务应用等),设计端到端的容器解决方案,平衡调度性能、弹性容量、安全合规与成本优化等关键维度; 5. 跨职能协同:联动容器产品 PDSA、运营、研发、运维及 SA 架构师团队,高效推进产品从需求到上线的全流程交付,确保技术方案与客户业务目标精准匹配,提升交付质量与客户体验; 6. 产品运营与持续迭代:负责产品上线后的运营闭环,包括客户反馈深度分析、用户培训、市场活动支持及数据驱动的体验优化,通过持续迭代巩固产品市场地位与客户成功。

更新于 2025-12-05北京|杭州
logo of aliyun
社招5年以上云智能集团

该岗位将承担智算底层系统性能优化、全栈协同性能优化两个方向的职责。 1、主导AI领域下阿里云云原生多租底层系统的性能瓶颈分析及优化设计,提升底层系统弹性、性能及成本竞争力。 2、优化AI应用场景安全容器运行时、虚拟化、linux内核等核心组件性能。 3、设计高并发、低延迟的云原生底层系统架构,支持AI场景节点pod极速弹缩及系统稳定性。 4、在云原生底层(操作系统内核、容器运行时、CRI-O等)和AI工作负载间建立性能优化协同框架,支撑大模型训练、分布式推理等AI应用在安全容器运行环境中保持性能竞争力。 5、优化AI模型在安全容器环境下的部署、分发、加载效率,支持AI应用极速启动。 6、设计并开发定制化监控和诊断工具链,实时分析云原生AI场景的GPU、CPU、内存、网络、存储性能瓶颈及热路径。

更新于 2025-09-08杭州
logo of aliyun
社招5年以上云智能集团

1、设计并实现高安全、低延迟的AI Agent沙箱运行时,支持Python、Node.js、Bash等语言执行。 2、构建沙箱生命周期管理系统:支持create、stop、resume、close,实现状态持久化与资源复用。 3、优化沙箱冷启动性能,设计预热池、镜像分层加载、快照恢复等机制。 4、制定安全策略,防范命令注入、路径遍历、资源耗尽等攻击,支持多租户隔离。 5、实现沙箱的可观测性体系:日志、监控、trace、调试入口。 6、编写高质量代码、技术文档,参与代码评审与系统架构演进。

更新于 2025-09-05北京|杭州