快手【快Star-X】多模态生成算法工程师
任职要求
1、硕士及以上学历,计算机、人工智能、数学等相关专业; 2、具备扎实的计算机视觉、深度学习和多模态学习基础,熟悉 Diffusion、Flow matching、DiT、VLM等相关…
工作职责
1、负责研发业界领先的多模态理解与生成统一架构,从事基础模型预训练、监督微调、架构优化等,重点探索感知(理解)与生成能力的协同演进与边界突破; 2、研究高效建模多模态数据(图像、文本、视频等)的新范式,提升模型的信息表征、理解与联合生成能力; 3、探索并研发更高效的视觉编码器,构建更强大的多模态模型基础; 4、发表高水平学术论文和开源项目,提升团队在学术界、工业界的技术影响力。
1、了解多模态内容生成相关算法,如Diffusion Models 、 GAN 、 VAE 、 Autoregressive Models等,包括但不限文本/图像/视频生成,解决生成质量、多样性、可控性、采样效率、可编辑等问题; 2、了解端到端多模态生成式大模型的框架设计、训练与调优,构建基于生成模型的AI系统,推动多模态AIGC在快手各业务场景的产品化落地。
团队介绍:快手商业智能生成团队主要负责快手商业化AIGC & Agent和多模态生成式推荐,研发的AI视频、AI小说等已在广告场景大规模落地并带来规模化收入,制定中国通信标准化协会AI视频生产标准;研发的多模态理解和大模型推荐技术,为商业化大盘带来显著提升。团队在 CVPR、ICCV、ICML、ICLR、AAAI等Al顶会发表多篇研究成果。 1、负责AIGC视觉生成方向的算法探索和落地开发,包括但不限于视频生成、图像编辑、文生图等; 2、参与基础模型的框架设计、预训练以及面向实际应用优化等,重点解决低成本、高品质生成、多样性以及可控编辑等关键问题; 3、紧跟学术前沿,深入研究视觉生成模型设计和优化的创新方法,全面提升视觉生成模型的生成效果; 4、发表高水平学术论文,提升团队在学术界、工业界的技术影响力。
1、数据特征算法方案制定与效果优化:针对不同模态、多种类目的数据,设计自动化筛选方案;对多模态数据涉及的前沿特征算法(如物体跟踪、ID 重识别、音频分离)进行场景化效果优化。与算法工程师协作,制定数据调整与扩展策略,提升模型在真实场景中的生成能力; 2、数据 pipeline 建设:负责多模态大模型训练数据的构建与管理,参与数据筛选、标注及质量评估工作。分析和挖掘现有数据资源,设计有效的数据分布策略,支持模型持续迭代; 3、数据分布分析:对模型训练数据分布进行详细分析,识别数据偏差、不均衡及潜在问题。提供可视化报告及改进建议,确保训练数据覆盖目标场景并满足多样性需求,最终通过数据驱动方法优化视频生成大模型效果。