夸克千问事业部-云原生技术专家-北京
任职要求
- 熟练掌握至少一门编程语言(Golang/Python/C++),具备扎实的代码功底和良好的工程习惯。 - 深入理解计算机网络原理,熟悉TCP/IP、HTTP等协议。 - 熟悉SQL,具备良好的数据库设计与优化能力。 - 扎实的数据结构与算法基础,具备复杂问题分析与解决能力。 - 具备Kubernetes二次开发经验,熟悉其核心组件原理与扩展机制(如CRD, Ope…
工作职责
团队介绍:团队负责广告核心检索系统与在线服务基础架构的持续演进,聚焦分布式系统、高性能服务端架构与云原生平台建设,支撑超大规模流量场景下的高并发、低延迟服务。 - 负责广告在线检索服务的云原生架构设计、建设与核心开发,保障系统的高可用、高性能与可扩展性。 - 参与PaaS平台的规划与开发,打造高效、易用的开发者平台,赋能业务团队快速迭代。 - 负责集群资源的调度策略优化、容量规划及成本控制,提升资源利用率。 - 设计并开发故障自愈、弹性伸缩等核心Operator,构建智能化的运维体系,提升系统稳定性与自动化水平。
1、面向通算的弹性、混部、分布式作业调度等技术的设计和研发,满足客户不同 SLA 的资源调度;高效解决AI场景下资源协调、碎片化、隔离与干扰等技术难题; 2、面向大规模、分布式的智算场景,设计实现大模型推理服务的多角色分离式编排调度、及时准确的弹性伸缩等,实现AI模型部署优化等平台能力; 3、通过画像建设、机器学习等,为调度系统提供更加智能的决策;在保障不同类型工作负载 SLA 前提下,尽可能提升硬件利用率; 4、负责多地多中心联邦调度建设,为客户提供多种异构资源、环境需求等,保障集群合理的分布、负载。

1、面向通算的弹性、混部、分布式作业调度等技术的设计和研发,满足客户不同 SLA 的资源调度;高效解决AI场景下资源协调、碎片化、隔离与干扰等技术难题; 2、面向大规模、分布式的智算场景,设计实现大模型推理服务的多角色分离式编排调度、及时准确的弹性伸缩等,实现AI模型部署优化等平台能力; 3、通过画像建设、机器学习等,为调度系统提供更加智能的决策;在保障不同类型工作负载 SLA 前提下,尽可能提升硬件利用率; 4、负责多地多中心联邦调度建设,为客户提供多种异构资源、环境需求等,保障集群合理的分布、负载。
1、面向通算的弹性、混部、分布式作业调度等技术的设计和研发,满足客户不同 SLA 的资源调度;高效解决AI场景下资源协调、碎片化、隔离与干扰等技术难题。 2、面向大规模、分布式的智算场景,设计实现大模型推理服务的多角色分离式编排调度、及时准确的弹性伸缩等,实现AI模型部署优化等平台能力。 3、通过画像建设、机器学习等,为调度系统提供更加智能的决策;在保障不同类型工作负载 SLA 前提下,尽可能提升硬件利用率。 4、负责多地多中心联邦调度建设,为客户提供多种异构资源、环境需求等,保障集群合理的分布、负载。