阿里云阿里云智能-容器服务智算方向开发专家-北京/杭州
任职要求
- 计算机、软件工程及相关专业,计算机基础知识与编程基本功扎实,熟悉Go/Python/C++至少一种 - 熟悉至少一项云原生技术(如Docker/Containerd/KataContainer/gVisor, Kubernetes等),有相关开源项目贡献或者大规模开发运维经验者优先 - 熟悉分布式计算/存储/调度系统的…
工作职责
- 负责阿里云容器平台在AI基础设施与应用架构方向的产品研发与技术演进 - 主导大规模异构资源(GPU/NPU/RDMA等)集群的调度、管理与性能优化,提升资源利用效率、系统稳定性与运行性能 - 构建面向AI与Agent应用的Serverless容器算力产品 - 基于Kubernetes打造面向大模型训练/推理、大规模数据处理及Agent应用的云原生基础设施产品与解决方案 - 推动云原生AI领域前沿技术预研、落地及开源生态建设,持续引领技术创新与行业实践
1. 负责阿里云容器云原生AI和大数据产品的架构设计和开发工作 2. 负责容器产品调度、管理大规模GPU/NPU/RDMA等异构资源集群的效率、性能和稳定性的持续优化 3. 负责基于Kubernetes容器构建面向AI/大模型训练和推理,大规模数据处理和工作流等场景的基础设施产品和解决方案 4. 负责云原生AI领域新技术和新方向的预研和落地,及相关开源能力建设
该岗位将承担智算底层系统性能优化、全栈协同性能优化两个方向的职责。 1、主导AI领域下阿里云云原生多租底层系统的性能瓶颈分析及优化设计,提升底层系统弹性、性能及成本竞争力。 2、优化AI应用场景安全容器运行时、虚拟化、linux内核等核心组件性能。 3、设计高并发、低延迟的云原生底层系统架构,支持AI场景节点pod极速弹缩及系统稳定性。 4、在云原生底层(操作系统内核、容器运行时、CRI-O等)和AI工作负载间建立性能优化协同框架,支撑大模型训练、分布式推理等AI应用在安全容器运行环境中保持性能竞争力。 5、优化AI模型在安全容器环境下的部署、分发、加载效率,支持AI应用极速启动。 6、设计并开发定制化监控和诊断工具链,实时分析云原生AI场景的GPU、CPU、内存、网络、存储性能瓶颈及热路径。
该岗位将承担智算底层系统性能优化、全栈协同性能优化两个方向的职责。 1、主导AI领域下阿里云云原生多租底层系统的性能瓶颈分析及优化设计,提升底层系统弹性、性能及成本竞争力。 2、优化AI应用场景安全容器运行时、虚拟化、linux内核等核心组件性能。 3、设计高并发、低延迟的云原生底层系统架构,支持AI场景节点pod极速弹缩及系统稳定性。 4、在云原生底层(操作系统内核、容器运行时、CRI-O等)和AI工作负载间建立性能优化协同框架,支撑大模型训练、分布式推理等AI应用在安全容器运行环境中保持性能竞争力。 5、优化AI模型在安全容器环境下的部署、分发、加载效率,支持AI应用极速启动。 6、设计并开发定制化监控和诊断工具链,实时分析云原生AI场景的GPU、CPU、内存、网络、存储性能瓶颈及热路径。
随着通用人工智能技术的快速发展,算力的需求也越来越大,作为阿里云人工智能平台的核心研发力量,您将负责构建支撑智算中心的自动化交付与运维底座。您的工作直接决定平台的部署效率、稳定性和扩展能力: 1、设计并实现平台的自动化部署系统,支持多地域、多可用区、多租户场景下的高效、高质量交付; 2、主导 GitOps 工作流在团队内的工程化落地,开发和维护基于ArgoCD/Flux等工具的发布控制系统,实现配置即代码、变更可追溯、发布可回滚; 3、参与多种云环境下部署架构的工程实现,解决跨云环境下的配置同步、资源编排与一致性保障问题; 4、与平台产品、算法工程团队紧密协作,将运维能力产品化,提升用户自助部署与管理体验。