快手(可灵AI专项)多模态 Data Infra 高级工程师
任职要求
1、硕士及以上学历,计算机、软件工程、人工智能、自动化等相关专业; 2、3年以上数据工程系统或者基础架构研发经验,熟练掌握Java/C++/Python语言中的一种; 3、熟悉海量大规模数据处理技术,如Ray、Spark、Fink等; 4、具备分布…
工作职责
1、对接视频/图片/音频等各类多模态模型的数据生产需求,打造业界领先的多模态数据生产引擎,持续提升训练数据的规模、质量和迭代效率,支撑可灵全系多模态生成模型训练; 2、搭建 Data Centric 的多模态数据处理 pipeline,包括数据处理算子开发、跨模态检索引擎开发、多模态数据的内容理解、质量筛选、组织与合成等关键环节; 3、构建高可用、高吞吐的数据算法服务框架,支持多模态模型服务的快速部署,持续优化多模态数据的存储以及检索效率。
1、对接视频/图片/音频等各类多模态模型的数据生产需求,打造业界领先的多模态数据生产引擎,持续提升训练数据的规模、质量和迭代效率,支撑可灵全系多模态生成模型训练; 2、搭建 Data Centric 的多模态数据处理 pipeline,包括数据处理算子开发、跨模态检索引擎开发、多模态数据的内容理解、质量筛选、组织与合成等关键环节; 3、构建高可用、高吞吐的数据算法服务框架,支持多模态模型服务的快速部署,通过各种技术手段持续优化性能,降低推理成本,包括但不限于:算子/编译优化、异构推理、模型量化&蒸馏、分布式并行等; 4、设计并实现高可扩展、低成本的多模态数据存储架构,支持对象存储、文件系统及数据库技术的融合应用,参与多模态数据管理体系的建设,实现统一的元数据标准、数据编目、版本控制和生命周期管理; 5、构建跨模态数据关联与检索能力,支持基于内容的相似性搜索、标签检索和多模态联合查询; 6、跟踪业界前沿技术(如向量数据库、云原生存储、数据湖仓一体等),推动系统持续演进。
1、对接视频/图片/音频等各类多模态模型的数据生产需求,打造业界领先的多模态数据生产引擎,持续提升训练数据的规模、质量和迭代效率,支撑可灵全系多模态生成模型训练; 2、搭建 Data Centric 的多模态数据处理 pipeline,包括数据处理算子开发、跨模态检索引擎开发、多模态数据的内容理解、质量筛选、组织与合成等关键环节; 3、构建高可用、高吞吐的数据算法服务框架,支持多模态模型服务的快速部署,持续优化多模态数据的存储以及检索效率。
参与多模态数据生产相关的模型推理系统研发工作,工作内容包括: 1、构建高可用、高吞吐的数据算法服务框架,支持多模态模型服务的高效部署和迭代; 2、通过各种技术手段持续优化性能,降低推理成本,包括但不限于:算子/编译优化、异构推理、模型量化&蒸馏、分布式并行等。