logo of kuaishou

快手大数据调度&大模型训练AI-Infra工程师/专家

社招全职3-5年J0012地点:北京状态:招聘

任职要求


1、有大数据引擎(Spark&Flink)、大模型训练AI-Infra优化经验优先,参与过大规模分布式系统开源贡献,或在相关领域有论文产出者加分;
2、熟悉K8S&了解Yarn调度,熟悉机器学习相关技术,有规范的文档撰写习惯,关注业界计算基础…
登录查看完整任职要求
微信扫码,1秒登录

工作职责


1、负责大数据方向Flink&Spark on K8S的关键能力建设,包括:Spark 高吞吐调度、Flink 极致负载均衡、Spark 计算 Offload 至 GPU 的调度支持、大数据作业资源弹性调度等;
2、负责大模型训练的ETTR(端到端训练启动时间)优化与 MFU(模型计算利用率)提升的关键技术能力建设,包括:GPU容器冷/热快速启停技术、模型服务初始化阶段的数据预加载与加速技术等。
包括英文材料
大数据+
Spark+
大模型+
分布式系统+
Kubernetes+
还有更多 •••
相关职位

logo of kuaishou
校招J1014

1、参与快手大数据Spark、Flink、MR等作业的编排调度工作; 2、基于Kubernetes等云原生技术完善资源统一调度、服务的多集群联邦编排,提升资源及服务变更效率; 3、参与公司在离线混部系列机制的设计与开发,提升集群异构资源的使用效率; 4、探索容器领域前沿技术,参与容器云全局技术优化与落地实践。

更新于 2025-08-06北京
logo of dewu
社招3年以上技术类

1,开发套件研发:负责大数据开发套件的研发和优化工作,包括数据开发、数据调度、数据集成(如FlinkCDC)、数据血缘、数据质量等模块的设计与研发; 2,持续跟踪和引进新技术,推动团队进行技术创新和研究,提升大数据处理和分析的效率、稳定性和可扩展性; 3,理解用户需求和业务场景,提供技术解决方案,推动大数据开发套件在用户侧的落地实施。

更新于 2023-12-26上海|杭州
logo of antgroup
社招3年以上技术类-数据

‌1 数据架构与开发‌: 负责企业级数据仓库、实时/离线数仓的架构设计与开发,优化ETL流程及数据调度系统; 基于Hadoop/Spark/Flink等框架,构建高可用、高性能的数据处理链路。 ‌2 数据建模与治理‌: 根据业务合规需求设计数据模型,基于隐私平台建设隐私数据资产体系; 参与数据治理工作,保障数据质量、一致性及安全性。 ‌3 业务协作与优化‌: 支持数据分析、BI及算法团队,提供联合分析、联合营销、联合建模等解决方案; 持续优化数据计算和存储性能,降低资源消耗。 ‌4 技术探索‌: 跟踪大数据领域新技术(如数据湖、实时计算、云原生),探索联邦学习、隐私大数据解决方案。"

更新于 2025-04-17深圳
logo of kuaishou
校招J1014

1、遵循robots协议,采集互联网上允许搜索爬虫采集的公开非敏感信息,满足大模型、电商、本地等公司核心业务数据需求;  2、负责分布式采集系统的建设与迭代优化,负责数据调度、采集、数据结构化、持久化全链路核心流程迭代升级;  3、帮助团队攻克各种采集技术难关,提升系统的采集效果与效率。

更新于 2025-07-30北京