快手大数据调度&大模型训练AI-Infra工程师/专家

社招全职3-5年J00122025-11-14地点：北京状态：招聘

扫码手机上打开

任职要求

1、有大数据引擎（Spark&Flink）、大模型训练AI-Infra优化经验优先，参与过大规模分布式系统开源贡献，或在相关领域有论文产出者加分；
2、熟悉K8S&了解Yarn调度，熟悉机器学习相关技术，有规范的文档撰写习惯，关注业界计算基础…

登录查看完整任职要求

微信扫码，1秒登录

工作职责

1、负责大数据方向Flink&Spark on K8S的关键能力建设，包括：Spark 高吞吐调度、Flink 极致负载均衡、Spark 计算 Offload 至 GPU 的调度支持、大数据作业资源弹性调度等；
2、负责大模型训练的ETTR（端到端训练启动时间）优化与 MFU（模型计算利用率）提升的关键技术能力建设，包括：GPU容器冷/热快速启停技术、模型服务初始化阶段的数据预加载与加速技术等。

📮 投递简历 ✨AI模拟面试

难度：

包括英文材料

大数据+

Spark+

Flink+

大模型+

分布式系统+

Kubernetes+

还有更多 •••

登录查看完整学习资料

相关职位

大数据调度工具开发工程师（DataOps 方向）（深圳/北京）

社招3年以上大数据(数据计算

1.设计并实现高性能、高可用的分布式任务调度引擎，支持分钟级百万任务调度； 2.构建分布式调度系统的高可用架构，实现故障自动转移与恢复； 3.设计并实现监控告警体系，推动调度系统的可观测性建设； 4.推动代码质量、单元测试和工程规范落地。

更新于 2026-07-13深圳

资深大数据资源调度方向研发工程师/专家

社招技术类

1. 负责⼤数据资源调度系统YARN 的设计和研发⼯作，解决集群规模增⻓带来的技术挑战，提⾼集群稳定性、可扩展性，深度优化资源调度策略和性能，提升资源利⽤效率； 2. 负责公司在离线混部系统的设计和研发⼯作，解决混部场景下，在离线资源复⽤、协调、隔离等问题，保证业务稳定性，提升在离线集群的资源利⽤效率； 3. 深⼊理解系统软硬件特性，关注线上运⾏状态，分析和解决线上问题，推动业务需求的解决⽅案落地。

更新于 2026-06-16上海

资深大数据研发工程师/技术专家-资源调度方向

社招技术类

1. 负责⼤数据资源调度系统YARN 的设计和研发⼯作，解决集群规模增⻓带来的技术挑战，提⾼集群稳定性、可扩展性，深度优化资源调度策略和性能，提升资源利⽤效率。 2. 负责公司在离线混部系统的设计和研发⼯作，解决混部场景下，在离线资源复⽤、协调、隔离等问题，保证业务稳定性，提升在离线集群的资源利⽤效率。 3. 深⼊理解系统软硬件特性，关注线上运⾏状态，分析和解决线上问题，推动业务需求的解决⽅案落地

更新于 2026-06-18上海

大数据研发工程师-2027届

实习

1、参与实现自动驾驶的数据闭环系统，利用大模型提升各个环节的效率 2、设计优化 PB 级大数据管道，并探索基于 agent/skill/MCP 的智能数据运维与调度

更新于 2026-06-16武汉