快手多模态视频生成算法实习生-【可灵团队】
实习兼职D12753地点:北京状态:招聘
任职要求
1、熟悉视频生成基础模型如SVD、Sora、meta moviegen、hunyun video等;
2、熟悉多模态大语言模型(deepseek/qwen等)、多模态理解生成、世界模型优先;
3、熟悉语音驱动视频生成、语音生成优先;
4、有多模态大语言模型、图像/视频生成、3D生成大规模训练和数据清洗经验者优先;
5、学习能力强、自驱、代码能力强、善于解决问题者优先;
6、有一作顶会或顶刊论文发表经历或相关知名大模型开源项目者优先。
可灵欢迎优秀同学加入:
团队大部分实习生是cuhk/hku/hkust,清北浙等高校的优秀博士生,大家合作交流密切。欢迎优秀同学加入!
工作职责
1、参与快手kling多模态视频生成的研发和落地工作(实习生以发论文为主),包括但不限于: t2v,i2v等基础模型研发、多模态可控视频生成编辑、世界模型等; 2、探索将多模态大语言模型mllm如deepseek/qwen相关技术与视频生成相结合,包括但不限于:提升kling视频生成的多模态理解、推理、多轮交互能力等; 3、探索将语音和视频生成相结合,包括但不限于:语音驱动的视频生成,有声视频等; 4、探索实时可拓展的多模态视频生成技术,提升多模态视频生成的质量和效率等; 5、在顶会顶刊上发表研究成果和开源代码,提升团队在多模态视频生成等领域的学术声望。
包括英文材料
大模型+
https://www.youtube.com/watch?v=xZDB1naRUlk
You will build projects with LLMs that will enable you to create dynamic interfaces, interact with vast amounts of text data, and even empower LLMs with the capability to browse the internet for research papers.
https://www.youtube.com/watch?v=zjkBMFhNj_g
相关职位
实习D12753
1、参与快手kling多模态视频生成的研发和落地工作(实习生以发论文为主),包括但不限于: t2v,i2v等基础模型研发、多模态可控视频生成编辑、世界模型等; 2、探索将多模态大语言模型mllm如deepseek/qwen相关技术与视频生成相结合,包括但不限于:提升kling视频生成的多模态理解、推理、多轮交互能力等; 3、探索将语音和视频生成相结合,包括但不限于:语音驱动的视频生成,有声视频等; 4、探索实时可拓展的多模态视频生成技术,提升多模态视频生成的质量和效率等; 5、在顶会顶刊上发表研究成果和开源代码,提升团队在多模态视频生成等领域的学术声望。
更新于 2025-09-30
实习D13338
1、主要负责可灵平台创作功能用户体验策略算法优化,帮助提升可灵平台用户留存、营收等核心指标; 2、参与大规模机器学习、深度学习领域技术研发工作,包括但不限于多模态、大模型SFT等算法研发; 3、参与搭建可灵平台在线学习策略算法系统,快速处理海量用户数据,提升算法性能,满足高并发、高时效性和可靠稳定性; 4、和产品、运营等团队合作,共同优化可灵社区生态,提供给用户更好体验,满足用户视频内容生产与消费、社交互动等多维需求。
更新于 2025-09-30
实习D7965
1、负责短视频生产/直播/商业化等特效智能策略算法研发优化。提高用户对模板/魔表等特效使用基础体验,增强特效业务智能化; 2、紧跟AIGC算法原理和发展,利用公司内部快意/可图/可灵/TTS等大模型平台,结合业务需求进行AIGC应用落地; 3、负责特效大数据加工和分析,通过因果推断、运筹优化等方法对生产、消费数据挖掘,洞察业务痛点,指导及优化特效相关业务内容。
更新于 2025-07-15