快手【快Star-X】大数据引擎研发工程师
任职要求
1、 硕士以上学历,计算机、软件工程等专业优先,对编译原理、计算机体系结构相关课程有过深入的学习; 2、较强的编码能力,熟练使用Java或者C++/Rust等至少一门编程语言,熟悉常用的Debug和Pro…
工作职责
1、深度参与大数据SQL引擎的性能优化工作 2、参与湖仓一体化引擎、多模态分析引擎的研发工作 3、推动AIForData的在大数据引擎的落地应用
【岗位职责】 1. 主导新一代训练与推理引擎的架构设计与核心模块开发,支撑搜广推业务在长序列建模、生成式推荐、Agent 等前沿场景的规模落地。 2. 与存储、数据平台深度协同,打造端到端 ML 数据 Pipeline:统一特征管理、秒级调试、版本追踪与一键上线,让数据科学家专注模型创新。 3. 持续优化训推基础设施:自研 Embedding 高速存储、特征 DSL 引擎、弹性调度与服务化推理框架,实现 10x 级性能提升。 4. 跟踪 LLM / Agent 最新进展,将其工程化落地到搜索、广告、推荐及智能体业务,定义行业新标准。
1、参与多模态模型、视频生成模型等大模型的分离式推理编排、异构算力匹配、全球化计算调度; 2、参与大规模异构算力集群的算力资源池化、弹性资源混部、潮汐资源调度; 3、基于HBO、强化学习等优化算法,持续优化工业级多模态视频生成、多模态内容理解系统的耗时体验与算力消耗。
1、参与多模态模型、视频生成模型等大模型的全链路数据生产流水线搭建; 2、参与多模态数据处理所需的LLM/VLM模型推理、跨模态检索、跨模态对齐等工程系统的建设; 3、基于各类分布式数据处理以及推理优化技术,持续优化超大规模多模态数据处理的推理、存储以及检索效率。
1、基础设施与模型融合研究 :紧密关注新一代基础设施的迭代,如高性能的新一代网卡、超节点服务器以及先进的集群拓扑结构等,结合多模态任务下多模型(涵盖 visual tokenizer、diffusion、LLM 等)长 pipeline 特点,探索更先进、高效的多模态模型架构以及训推解决方案; 2、分布式系统优化 :运用分布式系统迭代、系统算法 codesign 等手段,针对模型规模、集群规模、context length 持续 scaling up 过程中出现的诸多挑战展开深入研究。具体包括但不限于解决训练过程中的 MFU 与稳定性问题,优化推理环节的时延与吞吐,以及应对超长序列带来的训推显存压力等难题; 3、卓越系统打造 :通过持续的创新与优化实践,致力于打造业界卓越的分布式训推系统,推动相关技术在实际应用场景中的高效落地,提升整体系统性能与竞争力,为 kling 等核心模型发展提供坚实支撑。