logo of kuaishou

快手云原生平台后端研发工程师-算法引擎部

社招全职3年以上J0011地点:北京状态:招聘

任职要求


1、计算机科学、软件工程或相关领域本科及以上学历;
2、3 年以上 Golang 开发经验,熟悉 Golang 生态系统及其工具链;
3、具备 PaaS 或云计算相关平台的开发经验,熟悉 KubernetesDocker 等容器技术;
4、理解微服务架构,具备 RESTful API 设计和实现经验;
5、熟悉…
登录查看完整任职要求
微信扫码,1秒登录

工作职责


我们正在招募经验丰富,技术卓越的云原生平台后端研发工程师,主要负责云原生PaaS平台的框架设计优化和开发迭代工作,您将深入参与推荐系统引擎和模型服务部署管控全流程,为推荐系统云原生构建提供关键技术支撑。
主要职责:
1、参与 PaaS 平台的架构设计与开发,优化系统性能和可扩展性,保障平台的高性能和稳定性;
2、设计和实现高效的微服务架构,保障推荐系统引擎和模型服务部署管控的高效性和高可用性;
3、监控和分析系统性能,针对问题给出可落地的解决方案;
4、与产品经理、前端工程师和运维团队紧密合作,高效推动项目的进展;
5、进行代码框架整合与优化,确保代码的可扩展性和可维护性。
包括英文材料
学历+
Go+
PaaS+
Kubernetes+
Docker+
微服务+
REST+
还有更多 •••
相关职位

logo of baidu
社招3年以上ACG

-参与 AI Infra 核心平台建设,支撑大模型训练与推理业务的稳定、高效运行,覆盖 GPU、RDMA、高速网络等算力资源在云原生体系中的统一管理与调度 -负责 GPU、RDMA 等 IaaS 资源的自动化准入、能力识别、基准测试与性能评测,建设标准化算力验收与持续评测体系,保障不同硬件规格在大规模集群下的可用性与一致性 -负责 Kubernetes 容器平台的架构设计、能力演进与稳定性治理,重点关注平台的高可用、稳定性、安全性、性能、可扩展性等非功能性指标,参与或主导调度、资源隔离、设备插件(GPU/RDMA)、网络或存储相关模块的设计与二次开发 -支撑大模型推理与训练业务在平台侧的工程化落地,关注推理与训练场景下的资源利用率、调度效率、显存管理与多租户隔离,与算法、引擎团队协作,推动性能优化能力在平台层的规模化复用 -参与多卡、多机、大规模 GPU 集群的资源调度与稳定性建设,支撑 TP/DP/PP/PD 等并行模式在平台侧的运行与管理,解决实际生产环境中的性能抖动、资源碎片化与容量规划问题 -参与运维与运营平台后端研发,支撑算力运营、性能监控、容量管理与成本治理,建设可观测体系(监控、日志、Tracing),推动问题发现与定位的自动化,通过工程化手段持续降低人工运维成本

更新于 2026-02-03深圳
logo of meitu
社招3年以上研发类

## 职位描述 负责 AI 算法服务工程化与技术外采中台建设,打造统一的模型接入、调度与治理平台,支撑多算法、多厂商能力的标准化接入与高性能、高可用运行,构建面向 AI 时代的算法服务基础设施。 ## 岗位职责 1. 负责 AI 算法服务的工程化封装与容器化改造,设计统一的服务接入规范、部署标准与运行时治理体系 2. 参与构建多模型接入与调度平台,实现模型路由、并发控制、限流熔断、优先级调度与成本优化策略 3. 设计并优化高并发场景下的服务架构,保障系统在高 QPS、复杂依赖情况下的稳定性与可扩展性 4. 构建完善的可观测体系(日志、指标、Tracing),持续优化系统性能与故障恢复能力 5. 与算法、产品及业务团队协作,推动 AI 能力高效落地并形成可复用的工程化能力 ##

更新于 2026-03-13厦门
logo of meitu
社招3年以上研发类

## 职位描述 负责 AI 算法服务工程化与技术外采中台建设,打造统一的模型接入、调度与治理平台,支撑多算法、多厂商能力的标准化接入与高性能、高可用运行,构建面向 AI 时代的算法服务基础设施。 ## 岗位职责 1. 负责 AI 算法服务的工程化封装与容器化改造,设计统一的服务接入规范、部署标准与运行时治理体系 2. 参与构建多模型接入与调度平台,实现模型路由、并发控制、限流熔断、优先级调度与成本优化策略 3. 设计并优化高并发场景下的服务架构,保障系统在高 QPS、复杂依赖情况下的稳定性与可扩展性 4. 构建完善的可观测体系(日志、指标、Tracing),持续优化系统性能与故障恢复能力 5. 与算法、产品及业务团队协作,推动 AI 能力高效落地并形成可复用的工程化能力 ##

更新于 2026-03-09北京
logo of baidu
社招1年以上ACG

-负责百度云大规模云原生容器平台的核心后端架构和产品的设计与研发工作 -基于标准Kubernetes技术,负责云原生基础组件研发,包括调度、镜像、网络、存储、日志等 -应对AI推理/训练、在线常驻及弹性、离线计算等应用场景,提升产品的多场景应用托管能力 -负责提升优化通用系统的高可用、平台性能、可扩展性 -有机会参与AI推理和训练引擎框架的性能和高可用优化

更新于 2025-04-18北京