快手AI云原生调度工程师-【算法引擎部】

社招全职3年以上J00112026-06-12地点：北京状态：招聘

扫码手机上打开

任职要求

1. 本科及以上学历，3年及以上机器学习平台、云原生调度、AI基础设施相关研发经验；
2. 熟悉Golang/Java/Python至少一种编程语言，具备扎实的代码功底，能独立负责核心模块的设计与开发；
3. 深入理解Kubernetes核心原理，熟悉调度器、资源扩展机制、容器运行时，有…

登录查看完整任职要求

微信扫码，1秒登录

工作职责

1. 为快手打造大模型AI云原生K8s 基础设施建设，具备万卡以上规模的CPU/GPU调度能力，支撑包括 可灵大模型、搜推广 等核心模型的训练与推理调度；
2. 支撑数据、训练、推理等全场景AI负载生命周期管理，构建训推一体的统一调度架构，落地统一的配额和算力管理机制，实现负载高效协同与资源精准管控；
3. 深耕 GPU 调度与性能优化，落地 GPU 拓扑感知、优先级、抢占、QoS 感知等调度能力，支撑万卡级大规模 AI 任务高效运行；
4. 聚焦大模型云原生基础设施建设，负责高性能网络与存储加速、多云部署与调度能力，解决大模型训推理在通信、调度上的关键挑战，持续推动云原生与 AI 技术深度融合与架构创新。

📮 投递简历 ✨AI模拟面试

难度：

包括英文材料

学历+

机器学习+

Go+

还有更多 •••

登录查看完整学习资料

相关职位

AI云原生调度工程师- 【可灵AI专项】

社招3-5年J0011

1、深度参与可灵大模型云原生基础设施建设，打造支撑视频生成模型训练与推理的高性能 K8s 调度体系，具备万卡以上 GPU 集群的稳定调度与弹性扩缩能力； 2、负责可灵视频生成场景下的 AI 负载全生命周期管理，构建训推一体的统一调度架构，落地面向视频生成业务的配额管理与算力精准管控机制，支撑模型快速迭代与高并发推理请求； 3、深耕 GPU 调度与性能优化，针对视频生成任务的大内存、长时序特点，落地 GPU 拓扑感知、优先级调度、抢占、QoS 管控等核心能力，保障可灵在线推理低延迟与离线训练高吞吐的协同运行； 4、聚焦可灵大模型训推链路的云原生架构创新，攻关高性能网络通信（RDMA/InfiniBand）与存储加速，解决大规模视频模型在分布式训练通信、推理调度上的关键瓶颈，持续推动可灵 AI 基础设施的技术演进。

更新于 2026-07-17北京

国际AI云原生产品解决方案架构师-基础设施

社招3年以上A229044

1、AI云原生解决方案设计： 1）结合客户AI工作流（如大模型训练/推理、自动驾驶仿真、视频分析等），设计基于IaaS的云原生架构方案，优化模型训练/推理的性能、成本与可靠性； 2）主导AI专用加速方案（如混合精度训练、模型量化、分布式推理）的架构选型与落地，推动框架层与基础设施层的协同优化； 2、客户需求分析与价值传递： 1）深入调研客户AI应用场景，提炼核心痛点（如训练周期长、推理延迟高、资源成本高等），输出技术可行性报告； 2）通过技术白皮书、架构设计图、POC验证等方式，向客户展示IaaS平台在AI场景下的性能优势（如训练速度提升、推理成本降低等）； 3、跨团队协作与生态整合： 1）与研发团队协同定义技术实现路径，推动算子优化、框架适配等需求落地； 2）联合产品经理规划解决方案路标，确保技术方案与商业策略对齐； 3）整合ISV、AI框架社区资源，构建AI云原生解决方案生态； 4、行业趋势与市场分析： 1）跟踪AI云原生技术发展（如Kubernetes原生AI、推理加速），输出行业洞察报告； 2）对标市场AI云服务，制定差异化竞争策略。

更新于 2025-12-03杭州

面向大模型与AI Agent的AI云原生基础设施关键技术研究-计算

校招A09518

团队介绍：字节跳动基础设施计算团队，专注构建面向大模型与 AI Agent 时代的 AI-Native Infra。我们从算力、系统到平台，围绕“AI 如何高效运行、持续进化、规模化落地”这一核心问题，重构计算基础设施。我们管理着数十万台服务器组成的超大规模集群，构建统一的异构算力调度与云原生运行体系；通过软硬协同与自研框架，持续突破大模型训练与推理的性能瓶颈；并进一步向上，打造企业级 AI Agent Infra，让 Agent 具备身份、权限、记忆、观测与治理能力，真正成为可运行在生产环境中的新型“应用形态”。从云服务器、容器、函数，到 AI 网关、可观测与弹性体系，我们构建的是一个为 AI 而生、由 AI 驱动进化的基础设施平台，支撑集团核心业务与企业级客户的智能化升级。如果你希望参与定义 AI 时代的 Infra 范式，而不仅是优化一个模块或服务——欢迎加入我们，一起构建下一代 AI 云原生基础设施。课题介绍：随着大语言模型与AI Agent规模化落地，传统云原生基础设施已难以适配AI负载的极致性能与弹性需求。本课题围绕AI基础设施全栈展开系统性研究： 1、网络与可观测：研究大规模AI集群故障智能定位与根因分析，结合时序数据库智能调优，提升集群稳定性； 2、存储系统：研发AI场景专属的Serverless高性能弹性文件系统与存储加速架构，探索DPU软硬件协同优化，突破AI存储性能瓶颈； 3、算力调度：研究GPU/CPU/MEM异构协同调度技术，面向AI Agent构建Serverless异构算力编排系统，解决负载异构、状态依赖等调度难题； 4、向量检索：优化面向大模型应用的向量检索核心技术，打造云原生分布式向量索引引擎，满足超大规模向量检索的低延迟、低成本需求； 5、智能化与Agent架构：探索基于AI Agent工作流的基础设施自动寻优，构建可自主进化的业务Agent框架，通过AI for Infra赋能全栈智能优化；本课题旨在构建支撑大模型与AI Agent落地的下一代AI原生基础设施，提升资源利用率、降低成本、支撑弹性扩展，推动AI基础设施技术演进。课题挑战： 1、全栈协同挑战：覆盖多技术领域，需要从端到端视角实现系统性优化，避免单点优化收益不足； 2、性能成本平衡：AI场景对性能提出极致要求，需要在吞吐、延迟、规模与成本之间找到最优平衡点； 3、云原生适配：需要将传统单机技术方案重构为适配云原生分布式架构，解决扩缩容、容错、调度等新问题； 4、AI系统融合：既需要用AI赋能基础设施优化，又需要基础设施原生适配AI负载，深度融合对技术整合要求高； 5、Agent稳定性：自主进化Agent框架需要解决经验学习、知识一致性、持续安全进化等基础问题，工程化难度大； 6、研发生态平衡：需要平衡前沿理论创新与工程落地，兼顾技术突破与现有业务生态适配。课题价值： 1、构建大模型/RAG 场景的高性能基础设施底座，支撑大规模向量数据高效检索； 2、优化AI业务存储成本结构与运维复杂度； 3、提升异构算力资源配置效率与技术复用性。

更新于 2026-04-15上海

面向大模型与AI Agent的AI云原生基础设施关键技术研究-基础技术（北京/上海/杭州）

校招A13728A

团队介绍：字节跳动基础设施基础技术团队负责公司统一的基础软件，编译器&语言，DPU，大规模池化存储以及云原生计算集群，AI for Infra，Infra for AI 等相关领域，覆盖了在线存储、实时、离线、机器学习、软硬一体、AIOps 等多种应用场景，支持公司内外广泛的场景和需求。课题介绍：随着大语言模型与AI Agent规模化落地，传统云原生基础设施已难以适配AI负载的极致性能与弹性需求。本课题围绕AI基础设施全栈展开系统性研究： 1、网络与可观测：研究大规模AI集群故障智能定位与根因分析，结合时序数据库智能调优，提升集群稳定性； 2、存储系统：研发AI场景专属的serverless高性能弹性文件系统与存储加速架构，探索DPU软硬件协同优化，突破AI存储性能瓶颈； 3、算力调度：研究GPU/CPU/MEM异构协同调度技术，面向AI Agent构建Serverless异构算力编排系统，解决负载异构、状态依赖等调度难题； 4、向量检索：优化面向大模型应用的向量检索核心技术，打造云原生分布式向量索引引擎，满足超大规模向量检索的低延迟、低成本需求； 5、智能化与Agent架构：探索基于AI Agent工作流的基础设施自动寻优，构建可自主进化的业务Agent框架，通过AI for Infra赋能全栈智能优化。本课题旨在构建支撑大模型与AI Agent落地的下一代AI原生基础设施，提升资源利用率、降低成本、支撑弹性扩展，推动AI基础设施技术演进。课题挑战： 1、全栈协同挑战：覆盖多技术领域，需要从端到端视角实现系统性优化，避免单点优化收益不足； 2、性能成本平衡：AI场景对性能提出极致要求，需要在吞吐、延迟、规模与成本之间找到最优平衡点； 3、云原生适配：需要将传统单机技术方案重构为适配云原生分布式架构，解决扩缩容、容错、调度等新问题； 4、AI系统融合：既需要用AI赋能基础设施优化，又需要基础设施原生适配AI负载，深度融合对技术整合要求高； 5、Agent稳定性：自主进化Agent框架需要解决经验学习、知识一致性、持续安全进化等基础问题，工程化难度大； 6、研发生态平衡：需要平衡前沿理论创新与工程落地，兼顾技术突破与现有业务生态适配。课题价值： 1、构建大模型 / RAG 场景的高性能基础设施底座，支撑大规模向量数据高效检索； 2、优化 AI 业务存储成本结构与运维复杂度； 3、提升异构算力资源配置效率与技术复用性。

更新于 2026-04-15北京