阿里云阿里云智能-容器服务AI基础设施研发专家-杭州
任职要求
1.计算机科学、软件工程及相关专业,精通Golang/Java/Python至少一种语言以及相关技术生态,熟练掌握性能调优和高并发编程,具备良好的编码习惯; 2.熟悉至少一项云原生技术(如Docker/Containerd/KataContainer/gVisor, Kubernetes等),有相关开源项目贡献或者大规模开发运维经验者优先; 3.具备大规模分布式系统…
工作职责
1.负责阿里云容器平台在AI基础设施与应用架构方向的产品研发与技术演进; 2.主导大规模异构资源(GPU/NPU/RDMA等)集群的调度、管理与性能优化,提升资源利用效率、系统稳定性与运行性能; 3.设计并开发面向AI Agent场景的Serverless容器算力产品; 4.推动云原生AI领域前沿技术预研、落地及开源生态建设,持续引领技术创新与行业实践。
蚂蚁HCS 算力服务是全站通算,智算资源管理的基础设施平台, 通过Kubernetes等容器和平台技术,为上层业务提供云原生服务,AI算力服务,全局资源动态分配,调度节点单集群规模超过万台,同时致力于在系统、业务多个层面,包括os/kernel、容器/PaaS、智能调度/仿真容量等进行技术突破,提高容器系统规模化的资源利用效率,降低大促等各种大规模复杂业务场景下的资源成本,打造智能、高效、稳定的智算基础设施平台本岗位负责在云原生,AI快速发展的背景下,能够面向异构的物理资源,设计和实现大规模的k8s集群节点和资源的管理能力 ● 算力调度产品架构研发: 负责设计通算,智算的算力调度,优化的平台架构,实现算力的弹性伸缩,分时调度,能够设计训推混部的统一架构平台,实现算力资源有效利用 ● 节点池架构与异构资源管理:负责节点池架构设计,实现算力节点池的产品化管理能力,支持CPU/GPU等异构资源的统一调度与资源隔离,优化AI异构场景下的节点管理策略,提升大规模集群的资源利用率与任务执行效率。 ● 算力节点生命周期产品化管理:建设节点生命周期的全链路产品化能力,设计并实现节点故障预测与主动运维能力,支持算力节点与模型实例的自动化发现与自愈,能够保障算力的稳定和持续供给。 ● 技术创新与成本优化:探索云原生与AI技术结合的创新场景(如弹性节点池、智能调度算法),推动资源管理效率的持续提升。通过资源预测、库存优化等手段,降低集群运维成本与资源浪费
1、与内外部客户以及销售、解决方案架构师密切合作,收集客户需求和反馈; 2、与研发团队一起明确和优先考虑产品需求,并相应地设计产品功能; 3、定义产品上市策略,包括目标客户画像和产品定位定价以及运营策略; 4、定义产品目标和核心商业指标,并持续跟踪这些指标以进行产品增强; 5、管理和维护产品路标,并能够清晰地向客户阐述每个功能的价值; 6、进行市场分析,跟踪行业技术趋势,制定产品的远期规划。
1. CI/CD平台建设:负责构建高效、易用的持续集成平台,支撑团队月均十万次的构建、集成及测试任务执行; 2. 质量体系构建:通过技术创新和工程能力建设,全面提升产品质量,涵盖研发流程优化、测试策略制定、缺陷深度分析及智能诊断等核心环节; 3. 测试效能提升:设计并开发通用测试框架与脚手架工具,推动测试基础设施和测试代码架构升级,提升测试用例的易用性和一致性,显著改善产品测试效率和迭代速度; 4. 混沌工程实践:基于故障复盘与演练机制,持续推进产品容灾能力提升,不断完善混沌工程体系建设,全面覆盖核心容灾场景。
1. 作为技术负责人,制定并推动多模态交互系统的端云整体工程架构演进路线,覆盖端侧推理、客户端集成、云端服务及协同策略。 2. 主导端侧AI推理框架的设计与优化,包括模型加载、算子加速、内存管理、功耗控制、异构计算(CPU/GPU/NPU)调度等,确保大模型在资源受限设备上的高效运行。 3. 负责Android客户端核心交互模块的架构设计与开发,包括多模态输入采集、实时通信、状态管理、离在线切换、异常恢复等关键能力。 4. 设计高并发、低延迟、可扩展的云端推理服务架构,支持语音识别、大模型生成、多模态融合等服务的弹性部署与动态扩缩容。 5. 构建端云协同机制,实现任务卸载、上下文同步、模型热更新、A/B测试等能力,提升系统整体鲁棒性与迭代效率。 6. 带领应用工程团队,负责关键技术方案评审、核心模块编码、性能压测、线上稳定性保障及团队技术能力建设。 7. 与算法、产品、芯片、测试及客户解决方案团队紧密协作,推动系统从原型验证到规模化商用落地。