快手云原生平台后端研发工程师-算法引擎部
任职要求
1、计算机科学、软件工程或相关领域本科及以上学历; 2、3 年以上 Golang 开发经验,熟悉 Golang 生态系统及其工具链; 3、具备 PaaS 或云计算相关平台的开发经验,熟悉 Kubernetes、Docker 等容器技术; 4、理解微服务架构,具备 RESTful API 设计和实现经验; 5、熟悉…
工作职责
我们正在招募经验丰富,技术卓越的云原生平台后端研发工程师,主要负责云原生PaaS平台的框架设计优化和开发迭代工作,您将深入参与推荐系统引擎和模型服务部署管控全流程,为推荐系统云原生构建提供关键技术支撑。 主要职责: 1、参与 PaaS 平台的架构设计与开发,优化系统性能和可扩展性,保障平台的高性能和稳定性; 2、设计和实现高效的微服务架构,保障推荐系统引擎和模型服务部署管控的高效性和高可用性; 3、监控和分析系统性能,针对问题给出可落地的解决方案; 4、与产品经理、前端工程师和运维团队紧密合作,高效推动项目的进展; 5、进行代码框架整合与优化,确保代码的可扩展性和可维护性。
-参与 AI Infra 核心平台建设,支撑大模型训练与推理业务的稳定、高效运行,覆盖 GPU、RDMA、高速网络等算力资源在云原生体系中的统一管理与调度 -负责 GPU、RDMA 等 IaaS 资源的自动化准入、能力识别、基准测试与性能评测,建设标准化算力验收与持续评测体系,保障不同硬件规格在大规模集群下的可用性与一致性 -负责 Kubernetes 容器平台的架构设计、能力演进与稳定性治理,重点关注平台的高可用、稳定性、安全性、性能、可扩展性等非功能性指标,参与或主导调度、资源隔离、设备插件(GPU/RDMA)、网络或存储相关模块的设计与二次开发 -支撑大模型推理与训练业务在平台侧的工程化落地,关注推理与训练场景下的资源利用率、调度效率、显存管理与多租户隔离,与算法、引擎团队协作,推动性能优化能力在平台层的规模化复用 -参与多卡、多机、大规模 GPU 集群的资源调度与稳定性建设,支撑 TP/DP/PP/PD 等并行模式在平台侧的运行与管理,解决实际生产环境中的性能抖动、资源碎片化与容量规划问题 -参与运维与运营平台后端研发,支撑算力运营、性能监控、容量管理与成本治理,建设可观测体系(监控、日志、Tracing),推动问题发现与定位的自动化,通过工程化手段持续降低人工运维成本

## 职位描述 负责 AI 算法服务工程化与技术外采中台建设,打造统一的模型接入、调度与治理平台,支撑多算法、多厂商能力的标准化接入与高性能、高可用运行,构建面向 AI 时代的算法服务基础设施。 ## 岗位职责 1. 负责 AI 算法服务的工程化封装与容器化改造,设计统一的服务接入规范、部署标准与运行时治理体系 2. 参与构建多模型接入与调度平台,实现模型路由、并发控制、限流熔断、优先级调度与成本优化策略 3. 设计并优化高并发场景下的服务架构,保障系统在高 QPS、复杂依赖情况下的稳定性与可扩展性 4. 构建完善的可观测体系(日志、指标、Tracing),持续优化系统性能与故障恢复能力 5. 与算法、产品及业务团队协作,推动 AI 能力高效落地并形成可复用的工程化能力 ##

## 职位描述 负责 AI 算法服务工程化与技术外采中台建设,打造统一的模型接入、调度与治理平台,支撑多算法、多厂商能力的标准化接入与高性能、高可用运行,构建面向 AI 时代的算法服务基础设施。 ## 岗位职责 1. 负责 AI 算法服务的工程化封装与容器化改造,设计统一的服务接入规范、部署标准与运行时治理体系 2. 参与构建多模型接入与调度平台,实现模型路由、并发控制、限流熔断、优先级调度与成本优化策略 3. 设计并优化高并发场景下的服务架构,保障系统在高 QPS、复杂依赖情况下的稳定性与可扩展性 4. 构建完善的可观测体系(日志、指标、Tracing),持续优化系统性能与故障恢复能力 5. 与算法、产品及业务团队协作,推动 AI 能力高效落地并形成可复用的工程化能力 ##