快手【快Star-X】多模态生成算法工程师
任职要求
1、硕士及以上学历,计算机、人工智能、数学等相关专业; 2、具备扎实的计算机视觉、深度学习和多模态学习基础,熟悉 Diffusion、Flow matching、DiT、VLM等相关技术; 3、自我驱动力强,具有优秀的分析和解决问题的能力。 加分项: 1、有相关研究或者项目经验; 2、有相关方向高水平期刊或会议论文发表经历; 3、做过有影响力的开源项目或产品。
工作职责
1、负责研发业界领先的多模态理解与生成统一架构,从事基础模型预训练、监督微调、架构优化等,重点探索感知(理解)与生成能力的协同演进与边界突破; 2、研究高效建模多模态数据(图像、文本、视频等)的新范式,提升模型的信息表征、理解与联合生成能力; 3、探索并研发更高效的视觉编码器,构建更强大的多模态模型基础; 4、发表高水平学术论文和开源项目,提升团队在学术界、工业界的技术影响力。
1、了解多模态内容生成相关算法,如Diffusion Models 、 GAN 、 VAE 、 Autoregressive Models等,包括但不限文本/图像/视频生成,解决生成质量、多样性、可控性、采样效率、可编辑等问题; 2、了解端到端多模态生成式大模型的框架设计、训练与调优,构建基于生成模型的AI系统,推动多模态AIGC在快手各业务场景的产品化落地。
1、数据特征算法方案制定与效果优化:针对不同模态、多种类目的数据,设计自动化筛选方案;对多模态数据涉及的前沿特征算法(如物体跟踪、ID 重识别、音频分离)进行场景化效果优化。与算法工程师协作,制定数据调整与扩展策略,提升模型在真实场景中的生成能力; 2、数据 pipeline 建设:负责多模态大模型训练数据的构建与管理,参与数据筛选、标注及质量评估工作。分析和挖掘现有数据资源,设计有效的数据分布策略,支持模型持续迭代; 3、数据分布分析:对模型训练数据分布进行详细分析,识别数据偏差、不均衡及潜在问题。提供可视化报告及改进建议,确保训练数据覆盖目标场景并满足多样性需求,最终通过数据驱动方法优化视频生成大模型效果。
1、负责研发业界领先的多模态推理模型,重点研究多模态理解与生成的统一推理架构,探索并推动多模态综合推理能力的边界突破; 2、探索创新性机制设计,包括但不限于强化学习的奖励机制、长期记忆机制与高效的在线/持续学习范式; 3、研究如何在统一的状态空间中有效整合、抽象与利用不同模态(图像、视频、语言、等)信息,完成复杂推理任务; 4、发表高水平学术论文和开源项目,提升团队在学术界、工业界的技术影响力。
1、diffusion步数压缩: 探索 diffusion 模型的 one-step / few-steps 的无损蒸馏算法, 跟进学术界最前沿的 few-steps diffusion 算法, 包括但不限于 consistency modeling, shortcut, score distillation等方案, 打造实时化的极致高效可灵/可图 大模型; 2、高效attention设计: 探索新一代注意力实现机制, 包括但不限于: sparse/quant-attention, linear-attention, mamba等, 打破 attention 计算平方复杂度限制, 解决 长序列视频/图像 引起的推理挑战, 推进 可灵/可图 大模型的长序列场景下的推理极限; 3、强化反馈优化: 应用 DPO/GRPO/PPO 等强化学习的手段调优模型效果, 在模型压缩的前置条件下探索强化学习与压缩算法的化学反应, 推动 可灵/可图 大模型的效果-效率帕雷托前沿新SOTA。