
商汤图像和视频生成算法实习生
任职要求
1,具有图像视频生成的项目经验或者论文,熟悉目前常见的开源模型,如sd,flux,hunyuan-image, hunyuan-video, wanvideo, qwen-image中的一种或者多种。 2,掌握基本扩散模型的数学原理,从SDE,VDM等角度理解扩散模型。 3,…
工作职责
1, 算法创新,探索扩散模型在图像视频生成领域,画质,动态性提升的方法 2,算法创新,探索扩散模型推理提速的蒸馏方法和无需训练的方法 3,业务支持,改进现有扩散模型以实现目前业务所需的一些特性,如提高人像一致性,长视频生成的稳定性,指令遵循能力等 4,业务支持,改进现有扩散模型以实现流式地生成

1. 在图像和视频生成领域,开展AR Transformer和Diffusion模型融合的研究工作; 2. 探索PPO、DPO等强化学习方案在图像和视频生成领域的潜力,进一步提升生成效果和Benchmark; 3. 将研究成果转化为学术论文,持续投递A类会议;
1、研究和探索可控的视觉内容生成技术,负责视觉内容生成模型等相关算法的研发和落地,结合公司业务场景进行相关策略迭代 2、探索时空内容可控生成技术,包括图片/视频风格迁移、镜头控制、空间一致性控制等 3、持续跟踪图像和视频生成领域的最新技术动态,评估并实施前沿技术,推动技术在公司产品中的应用与创新
团队介绍: 我们团队在地图导航的核心领域路线规划、ETA、路况预测等方向都达到行业领先的水平,有很强的用户口碑,你将与算法精英共事,提升你的技术实力和创新能力。团队承接公司核心业务,深耕人工智能前沿领域,在业内有持续影响力,多篇论文入选paper digest最有影响力论文名单。 具体职责包括但不限于: 1、在mentor的指导下,研究用于图像和视频生成/理解的先进算法,包括但不限于GANs和LDMs、多模态大模型; 2、跟踪业内最前沿的AIGC和多模态大模型技术,并将创新技术用于实际问题; 3、技术沉淀形成顶会论文和专利。
1、参与快手kling多模态视频生成的研发和落地工作(实习生以发论文为主),包括但不限于: t2v,i2v等基础模型研发、多模态可控视频生成编辑、世界模型等; 2、探索将多模态大语言模型mllm如deepseek/qwen相关技术与视频生成相结合,包括但不限于:提升kling视频生成的多模态理解、推理、多轮交互能力等; 3、探索将语音和视频生成相结合,包括但不限于:语音驱动的视频生成,有声视频等; 4、探索实时可拓展的多模态视频生成技术,提升多模态视频生成的质量和效率等; 5、在顶会顶刊上发表研究成果和开源代码,提升团队在多模态视频生成等领域的学术声望。