
商汤多模态理解生成见习算法研究员
任职要求
1.扎实的理论基础: 计算机科学、人工智能、电子工程等相关专业在读硕士或博士生,对机器学习、深度学习有深入理解,熟悉Transformer等核心模型,以及基本的数学知识和编程能力。
2.强烈的探索精…工作职责
1.多模态理解与生成算法研究: 紧跟领域前沿,深入研究多模态(图像、文本、视频)的理解与生成统一的核心算法。 2.模型设计与优化: 负责多模态理解与生成模型的设计、训练、评估和优化,不断提升模型性能和泛化能力。 3.创新技术探索: 探索新的预训练和后训练范式,发现和解决大模型靠单一模态难以解决的问题。

工作职责1.多模态理解与生成算法研究: 紧跟领域前沿,深入研究多模态(图像、文本、视频)的理解与生成统一的核心算法。 2.模型设计与优化: 负责多模态理解与生成模型的设计、训练、评估和优化,不断提升模型性能和泛化能力。 3.创新技术探索: 探索新的预训练和后训练范式,发现和解决大模型靠单一模态难以解决的问题。 :

1. 多模态理解与生成算法研究: 紧跟领域前沿,深入研究多模态(图像、文本、视频)的理解与生成统一的核心算法; 2. 模型设计与优化: 负责多模态理解与生成模型的设计、训练、评估和优化,不断提升模型性能和泛化能力; 3. 创新技术探索: 探索新的预训练和后训练范式,发现和解决大模型靠单一模态难以解决的问题。
1.从事多模态生成/理解大模型的研究与开发,包括但不局限多模态生成预训练、多模态理解、多模态数据处理、多模态后训练、多模态强化学习等跨模态算法的研发和优化,跟进并保持业界技术领先; 2.推进跨模态内容理解/生成前沿技术的创新落地。设计和优化现有算法,提高性能和准确性,确保高质量的用户体验; 3.关注多模态/NLP/CV等方向的前沿技术,及时将新技术应用到产品中。
1、参与快手kling多模态视频生成的研发和落地工作(实习生以发论文为主),包括但不限于: t2v,i2v等基础模型研发、多模态可控视频生成编辑、世界模型等; 2、探索将多模态大语言模型mllm如deepseek/qwen相关技术与视频生成相结合,包括但不限于:提升kling视频生成的多模态理解、推理、多轮交互能力等; 3、探索将语音和视频生成相结合,包括但不限于:语音驱动的视频生成,有声视频等; 4、探索实时可拓展的多模态视频生成技术,提升多模态视频生成的质量和效率等; 5、在顶会顶刊上发表研究成果和开源代码,提升团队在多模态视频生成等领域的学术声望。