夸克千问事业部-AI调度系统专家-杭州
任职要求
1、熟练掌握 Linux 环境下的 Go/C++/Python 等1至2种以上语言; 2、熟悉 Kubernetes 架构和生态,或熟悉 Docker/Containerd 等容器技术,有丰富的云原生开发经验; 3、掌握分布式系统原理,参与过大规模分布式系统的设计、开发和维护; 4、优秀的逻辑分析能力,能够对业务逻辑进行合理的抽象和拆分,底层系统问题…
工作职责
1、面向通算的弹性、混部、分布式作业调度等技术的设计和研发,满足客户不同 SLA 的资源调度;高效解决AI场景下资源协调、碎片化、隔离与干扰等技术难题; 2、面向大规模、分布式的智算场景,设计实现大模型推理服务的多角色分离式编排调度、及时准确的弹性伸缩等,实现AI模型部署优化等平台能力; 3、通过画像建设、机器学习等,为调度系统提供更加智能的决策;在保障不同类型工作负载 SLA 前提下,尽可能提升硬件利用率; 4、负责多地多中心联邦调度建设,为客户提供多种异构资源、环境需求等,保障集群合理的分布、负载。
1、面向通算的弹性、混部、分布式作业调度等技术的设计和研发,满足客户不同 SLA 的资源调度;高效解决AI场景下资源协调、碎片化、隔离与干扰等技术难题。 2、面向大规模、分布式的智算场景,设计实现大模型推理服务的多角色分离式编排调度、及时准确的弹性伸缩等,实现AI模型部署优化等平台能力。 3、通过画像建设、机器学习等,为调度系统提供更加智能的决策;在保障不同类型工作负载 SLA 前提下,尽可能提升硬件利用率。 4、负责多地多中心联邦调度建设,为客户提供多种异构资源、环境需求等,保障集群合理的分布、负载。
1、负责云端多机房CPU,GPU计算资源以及存储资源调度运维管理; 2、负责云端AI训练平台以及训练框架的开发以及运维工作; 3、跟进支撑智能业务,整合团队资源,协调外部团队,推动业务上线; 4、探索资源调度前沿技术,包括:前沿调度算法,弹性混部基建,GPU虚拟化等。
生态战略落地 • 负责阿里云与SAP战略合作在公共云事业部的高效落地,驱动阿里云上的SAP云产品(RISE、GROW、BTP、IBP等)及SAP OP on 阿里云相关产品的规模化销售与市场渗透。 GTM策略与执行 • 制定并拆解与SAP的年度联合GTM计划,通过战役激励、目标对齐与资源整合,确保区域销售目标的达成与业务的稳定增长。 协同机制建设 • 构建常态化的协同作战体系,包括管理层战略对齐、区域销售联合赋能、客户清单撞库及联合商机管理机制,实现内外部协同效率最大化。 重点商机闭环 • 深度介入核心项目攻坚,通过联合高层拜访、内部资源调度及商务协调,推动商机从线索识别到最终落地的全链路闭环,提升高价值项目转化率。 生态营销与品牌赋能 • 与SAP及内部相关方联合策划高价值的联合市场活动,提升双方联合解决方案的品牌心智,驱动高质量潜在客户线索的挖掘与沉淀。 联合创新孵化 • 洞察行业客户典型场景,与SAP共同探索本土化的SAP AI融合方案,推动千问大模型在SAP场景中的用户体验,持续提升SAP AI解决方案竞争力。 业务洞察与反馈闭环 • 定期进行业务经营分析,敏锐洞察市场竞争态势与业务需求,及时向各相关方提供策略反馈,持续优化合作生态。