快手大数据调度&大模型训练AI-Infra工程师/专家
社招全职3-5年J0012地点:北京状态:招聘
任职要求
1、有大数据引擎(Spark&Flink)、大模型训练AI-Infra优化经验优先,参与过大规模分布式系统开源贡献,或在相关领域有论文产出者加分; 2、熟悉K8S&了解Yarn调度,熟悉机器学习相关技术,有规范的文档撰写习惯,关注业界计算基础…
登录查看完整任职要求
微信扫码,1秒登录
工作职责
1、负责大数据方向Flink&Spark on K8S的关键能力建设,包括:Spark 高吞吐调度、Flink 极致负载均衡、Spark 计算 Offload 至 GPU 的调度支持、大数据作业资源弹性调度等; 2、负责大模型训练的ETTR(端到端训练启动时间)优化与 MFU(模型计算利用率)提升的关键技术能力建设,包括:GPU容器冷/热快速启停技术、模型服务初始化阶段的数据预加载与加速技术等。
包括英文材料
大数据+
https://www.youtube.com/watch?v=bAyrObl7TYE
https://www.youtube.com/watch?v=H4bf_uuMC-g
With all this talk of Big Data, we got Rebecca Tickle to explain just what makes data into Big Data.
Spark+
[英文] Learning Spark Book
https://pages.databricks.com/rs/094-YMS-629/images/LearningSpark2.0.pdf
This new edition has been updated to reflect Apache Spark’s evolution through Spark 2.x and Spark 3.0, including its expanded ecosystem of built-in and external data sources, machine learning, and streaming technologies with which Spark is tightly integrated.
Flink+
https://nightlies.apache.org/flink/flink-docs-release-2.0/docs/learn-flink/overview/
This training presents an introduction to Apache Flink that includes just enough to get you started writing scalable streaming ETL, analytics, and event-driven applications, while leaving out a lot of (ultimately important) details.
https://www.youtube.com/watch?v=WajYe9iA2Uk&list=PLa7VYi0yPIH2GTo3vRtX8w9tgNTTyYSux
Today’s businesses are increasingly software-defined, and their business processes are being automated. Whether it’s orders and shipments, or downloads and clicks, business events can always be streamed. Flink can be used to manipulate, process, and react to these streaming events as they occur.
大模型+
https://www.youtube.com/watch?v=xZDB1naRUlk
You will build projects with LLMs that will enable you to create dynamic interfaces, interact with vast amounts of text data, and even empower LLMs with the capability to browse the internet for research papers.
https://www.youtube.com/watch?v=zjkBMFhNj_g
分布式系统+
https://www.distributedsystemscourse.com/
The home page of a free online class in distributed systems.
https://www.youtube.com/watch?v=7VbL89mKK3M&list=PLOE1GTZ5ouRPbpTnrZ3Wqjamfwn_Q5Y9A
Kubernetes+
https://kubernetes.io/docs/tutorials/kubernetes-basics/
This tutorial provides a walkthrough of the basics of the Kubernetes cluster orchestration system.
https://kubernetes.io/zh-cn/docs/tutorials/kubernetes-basics/
本教程介绍 Kubernetes 集群编排系统的基础知识。每个模块包含关于 Kubernetes 主要特性和概念的一些背景信息,还包括一个在线教程供你学习。
https://www.youtube.com/watch?v=s_o8dwzRlu4
Hands-On Kubernetes Tutorial | Learn Kubernetes in 1 Hour - Kubernetes Course for Beginners
https://www.youtube.com/watch?v=X48VuDVv0do
Full Kubernetes Tutorial | Kubernetes Course | Hands-on course with a lot of demos
还有更多 •••
相关职位
校招J1014
1、参与快手大数据Spark、Flink、MR等作业的编排调度工作; 2、基于Kubernetes等云原生技术完善资源统一调度、服务的多集群联邦编排,提升资源及服务变更效率; 3、参与公司在离线混部系列机制的设计与开发,提升集群异构资源的使用效率; 4、探索容器领域前沿技术,参与容器云全局技术优化与落地实践。
更新于 2025-08-06北京

社招3年以上技术类
1,开发套件研发:负责大数据开发套件的研发和优化工作,包括数据开发、数据调度、数据集成(如FlinkCDC)、数据血缘、数据质量等模块的设计与研发; 2,持续跟踪和引进新技术,推动团队进行技术创新和研究,提升大数据处理和分析的效率、稳定性和可扩展性; 3,理解用户需求和业务场景,提供技术解决方案,推动大数据开发套件在用户侧的落地实施。
更新于 2023-12-26上海|杭州
社招3年以上技术类-数据
1 数据架构与开发: 负责企业级数据仓库、实时/离线数仓的架构设计与开发,优化ETL流程及数据调度系统; 基于Hadoop/Spark/Flink等框架,构建高可用、高性能的数据处理链路。 2 数据建模与治理: 根据业务合规需求设计数据模型,基于隐私平台建设隐私数据资产体系; 参与数据治理工作,保障数据质量、一致性及安全性。 3 业务协作与优化: 支持数据分析、BI及算法团队,提供联合分析、联合营销、联合建模等解决方案; 持续优化数据计算和存储性能,降低资源消耗。 4 技术探索: 跟踪大数据领域新技术(如数据湖、实时计算、云原生),探索联邦学习、隐私大数据解决方案。"
更新于 2025-04-17深圳