阿里云阿里云智能-容器服务应用管理技术专家-杭州
任职要求
1. 精通Kubernetes, GitOps, CICD等容器技术,5年以上相关开发经验;有operator等Kubernetes扩展开发经验, 有Kubernetes, Helm,KServe等相关开源项目贡献者优先。 2. 熟练掌握Golang语言开发,具有Python, Shell, Lua, Wasm等其他一种或多种语言开发经验。 3. 对Linux系统有较深入的理解,对cgroup/namespace隔离技术了解优先,有容器技术生产环境运维经验者优先。 4. 良好的表达、组织、沟通和协作能力;有开源社区协作和运营经验者优先。 5. 对技术有激情,喜欢钻研,良好的学习能力。
工作职责
1. 负责阿里云容器产品的架构设计和功能迭代演进。 2. 负责针对云产品和开源应用的容器集成方案设计,产品规划落地和技术支持。 3. 负责容器领域前沿技术的探索,对云原生AI和大数据等场景的支持。
云原生容器平台是全站资源管理的基础设施平台,通过Pouch,Kubernetes等容器和平台技术,为上层业务提供标准容器服务和全局资源动态分配,调度节点单集群规模超过万台,同时致力于在系统、业务多个层面,包括os/kernel、容器/PaaS、智能调度/仿真容量等进行技术突破,提高容器系统规模化的资源利用效率,降低大促等各种大规模复杂业务场景下的资源成本,打造智能、高效、稳定的金融级基础系统。 1、基于Kubernetes打造高性能、高可用的大规模容器计算平台,通过优化/定制/开发Kubernetes平台核心组件,实现业务对平台的功能及性能需求; 2、负责平台稳定性建设,解决操作系统内核、大规模分布式系统等领域的众多技术挑战,为蚂蚁数十个大规模集群保驾护航; 3、以产品化思维完善基础设施平台的服务设计,在平台之上设计开发新的功能体验,打造面向用户应用的智能基础设施平台。
1. 主导Agent基础设施的架构设计与开发,构建高性能、高可用、安全可靠的Agent开发平台。 2. 基于多模态大模型设计无影AI的技术架构,持续优化系统可扩展性和稳定性,支撑无影AI业务快速增长。 3. 深入研究LLM/Agent领域前沿技术,将研究成果应用于复杂业务场景,提升系统整体性能和智能化水平。
1. 负责灵骏集群中GPU资源的全面监控、质量巡检及故障预测,通过智能化运维手段确保系统的高可用性和稳定性,提前识别并解决潜在问题; 2. 保障灵骏与集团在线POD的集群资源管理与切分业务,优化资源分配策略,提高资源利用率和任务处理效率,支持大规模分布式计算的需求; 3. 开发和维护KuberGPU技术,实现GPU资源的高效切分与容器化部署,支持包括灵骏客户、集团内部需求以及阿里云服务(ACS)产品在内的多种应用场景,提供灵活且强大的GPU资源共享解决方案; 4. 开发和实施容器热迁移技术,提升集群灵活性和容错能力,确保在不停机的情况下进行系统维护和资源调度,进一步增强用户体验和服务连续性。
我们正在寻找一位充满激情、经验丰富的高级技术专家,加入我们的创新团队,共同面对并解决在Serverless GPU和AI应用平台领域中的挑战性问题。 1.负责Serverless计算及AI应用托管平台的架构设计与持续优化。包括异步事件处理、GPU资源调度与弹性伸缩,AI 应用和模型托管等核心功能的设计。保障系统的高可用性、可扩展性和安全性。 2.理解业务战略及重点,并进行相应的技术架构规划并推动落地。能够为开发团队提供专业的技术指导和支持。推动分布式系统、AI应用托管等领域的知识共享和技术创新。 3.深入分析系统性能瓶颈,实施有效的优化策略,提高系统响应速度和资源使用效率。 4.加强与产品、开发、运维等部门的合作,确保技术方案的有效实施,克服项目推进中的各种障碍。 5.为关键客户提供技术支持,针对使用Serverless平台过程中出现的难题给予及时有效的解决方案,维护良好的产品体验。