logo of kuaishou

快手多模态视频生成算法实习生-【可灵团队】

实习兼职D12753地点:北京状态:招聘

任职要求


1、熟悉视频生成基础模型如SVD、Sora、meta moviegen、hunyun video等;
2、熟悉多模态大语言模型(deepseek/qwen等)、多模态理解生成、世界模型优先;
3、熟悉语音驱动视频生成、语音生成优先;
4、有多模态大语言模型、图像/视频生成、3D生成大规模训练和数据清洗经验者优先;
5、学习能力强、自驱、代码能力强、善于解决问题者优先;
6、有一作顶会或顶刊论文发表经历或相关知名大模型开源项目者优先。

可灵欢迎优秀同学加入:
团队大部分实习生是cuhk/hku/hkust,清北浙等高校的优秀博士生,大家合作交流密切。欢迎优秀同学加入!

工作职责


1、参与快手kling多模态视频生成的研发和落地工作(实习生以发论文为主),包括但不限于: t2v,i2v等基础模型研发、多模态可控视频生成编辑、世界模型等;
2、探索将多模态大语言模型mllm如deepseek/qwen相关技术与视频生成相结合,包括但不限于:提升kling视频生成的多模态理解、推理、多轮交互能力等;
3、探索将语音和视频生成相结合,包括但不限于:语音驱动的视频生成,有声视频等;
4、探索实时可拓展的多模态视频生成技术,提升多模态视频生成的质量和效率等;
5、在顶会顶刊上发表研究成果和开源代码,提升团队在多模态视频生成等领域的学术声望。
包括英文材料
大模型+
相关职位

logo of kuaishou
实习D12753

1、参与快手kling多模态视频生成的研发和落地工作(实习生以发论文为主),包括但不限于: t2v,i2v等基础模型研发、多模态可控视频生成编辑、世界模型等; 2、探索将多模态大语言模型mllm如deepseek/qwen相关技术与视频生成相结合,包括但不限于:提升kling视频生成的多模态理解、推理、多轮交互能力等; 3、探索将语音和视频生成相结合,包括但不限于:语音驱动的视频生成,有声视频等; 4、探索实时可拓展的多模态视频生成技术,提升多模态视频生成的质量和效率等; 5、在顶会顶刊上发表研究成果和开源代码,提升团队在多模态视频生成等领域的学术声望。

更新于 2025-09-30
logo of kuaishou
实习D13338

1、主要负责可灵平台创作功能用户体验策略算法优化,帮助提升可灵平台用户留存、营收等核心指标; 2、参与大规模机器学习、深度学习领域技术研发工作,包括但不限于多模态、大模型SFT等算法研发; 3、参与搭建可灵平台在线学习策略算法系统,快速处理海量用户数据,提升算法性能,满足高并发、高时效性和可靠稳定性; 4、和产品、运营等团队合作,共同优化可灵社区生态,提供给用户更好体验,满足用户视频内容生产与消费、社交互动等多维需求。

更新于 2025-09-30
logo of kuaishou
实习D7965

1、负责短视频生产/直播/商业化等特效智能策略算法研发优化。提高用户对模板/魔表等特效使用基础体验,增强特效业务智能化; 2、紧跟AIGC算法原理和发展,利用公司内部快意/可图/可灵/TTS等大模型平台,结合业务需求进行AIGC应用落地; 3、负责特效大数据加工和分析,通过因果推断、运筹优化等方法对生产、消费数据挖掘,洞察业务痛点,指导及优化特效相关业务内容。

更新于 2025-07-15
logo of kuaishou
实习D10702

随本地生活业务多场景AI落地,构建AIGC、B/C端等智能服务的数据飞轮,主要工作涉及: 1. 用户数据分析和策略制定:分析用户交互数据和转化数据,评估不同商品和不同视频内容下用户的转化情况,制定选品、价格和内容优化策略; 2. 优化模型生成效果:负责模型训练数据构建与管理,参与数据筛选、标注及评测体系构建工作。分析和挖掘现有数据资源,通过数据驱动的方法优化,结合A/B测试等手段验证调整效果。

更新于 2025-09-01