阿里云阿里云智能-容器服务应用管理技术专家-杭州
任职要求
1. 精通Kubernetes, GitOps, CICD等容器技术,5年以上相关开发经验;有operator等Kubernetes扩展开发经验, 有Kubernetes, Helm,KServe等相关开源项目贡献者优先。 2. 熟练掌握Golang语言开发,具有Python, Shell, …
工作职责
1. 负责阿里云容器产品的架构设计和功能迭代演进。 2. 负责针对云产品和开源应用的容器集成方案设计,产品规划落地和技术支持。 3. 负责容器领域前沿技术的探索,对云原生AI和大数据等场景的支持。
1. 技术前瞻与需求洞察:深度跟踪容器、云原生技术前沿(如 Kubernetes 新特性、Serverless 演进、AI 训练/推理、AI Agent 架构、微服务治理等),精准识别内/外客户在不同场景中的核心需求,驱动产品创新方向与技术战略落地; 2. 竞品与市场分析:持续分析主流云厂商在容器编排、Serverless 算力、AI 训推方案、AI Agent 等领域的竞品动态,输出深度市场洞察报告,支撑产品差异化设计与战略决策,不断增强产品竞争力; 3. 产品全生命周期管理:主导核心容器产品(如 ACK、ACS、ACR 等)的功能规划、需求定义、设计及商业化运营,从需求挖掘到规模化落地,推动市场份额与用户满意度提升; 4. 端到端解决方案设计:针对企业客户复杂业务场景(如 AI 训练/推理、AI Agent 应用、大数据应用、多云微服务应用等),设计端到端的容器解决方案,平衡调度性能、弹性容量、安全合规与成本优化等关键维度; 5. 跨职能协同:联动容器产品 PDSA、运营、研发、运维及 SA 架构师团队,高效推进产品从需求到上线的全流程交付,确保技术方案与客户业务目标精准匹配,提升交付质量与客户体验; 6. 产品运营与持续迭代:负责产品上线后的运营闭环,包括客户反馈深度分析、用户培训、市场活动支持及数据驱动的体验优化,通过持续迭代巩固产品市场地位与客户成功。
云原生容器平台是全站资源管理的基础设施平台,通过Pouch,Kubernetes等容器和平台技术,为上层业务提供标准容器服务和全局资源动态分配,调度节点单集群规模超过万台,同时致力于在系统、业务多个层面,包括os/kernel、容器/PaaS、智能调度/仿真容量等进行技术突破,提高容器系统规模化的资源利用效率,降低大促等各种大规模复杂业务场景下的资源成本,打造智能、高效、稳定的金融级基础系统。 1、基于Kubernetes打造高性能、高可用的大规模容器计算平台,通过优化/定制/开发Kubernetes平台核心组件,实现业务对平台的功能及性能需求; 2、负责平台稳定性建设,解决操作系统内核、大规模分布式系统等领域的众多技术挑战,为蚂蚁数十个大规模集群保驾护航; 3、以产品化思维完善基础设施平台的服务设计,在平台之上设计开发新的功能体验,打造面向用户应用的智能基础设施平台。
1. 主导Agent基础设施的架构设计与开发,构建高性能、高可用、安全可靠的Agent开发平台。 2. 基于多模态大模型设计无影AI的技术架构,持续优化系统可扩展性和稳定性,支撑无影AI业务快速增长。 3. 深入研究LLM/Agent领域前沿技术,将研究成果应用于复杂业务场景,提升系统整体性能和智能化水平。
1. 负责灵骏集群中GPU资源的全面监控、质量巡检及故障预测,通过智能化运维手段确保系统的高可用性和稳定性,提前识别并解决潜在问题; 2. 保障灵骏与集团在线POD的集群资源管理与切分业务,优化资源分配策略,提高资源利用率和任务处理效率,支持大规模分布式计算的需求; 3. 开发和维护KuberGPU技术,实现GPU资源的高效切分与容器化部署,支持包括灵骏客户、集团内部需求以及阿里云服务(ACS)产品在内的多种应用场景,提供灵活且强大的GPU资源共享解决方案; 4. 开发和实施容器热迁移技术,提升集群灵活性和容错能力,确保在不停机的情况下进行系统维护和资源调度,进一步增强用户体验和服务连续性。