logo of tongyi

通义研究型实习生-原生多模态视频生成技术研究

实习兼职通义研究型实习生地点:北京 | 杭州状态:招聘

任职要求


1. 具备扎实的多模态或者机器学习算法基础,有成果发表在CVPRNeurIPSICMLICLRTPAMIIJCV等顶级会议期刊者优先。
2. 熟练掌握C/C++Python等至少一门语言,ACM/ICPC,topcoder等编程比赛获奖者优先。
3. 乐于沟通、分享、交流、有激情、责任心强,具备良好的团队合作、沟通能力。

工作职责


本项目旨在深入探索原生多模态视频生成的前沿技术,构建从内容生成到智能应用的完整技术闭环。具体研究课题包括但不限于:
1. 长视频生成: 重点研究能够生成分钟级长视频的算法,攻克生成过程中的稳定性与时序一致性难题,实现流畅、高质量的视频流输出。
2. 可控视频编辑与下游应用 : 开发基于自然语言、图像示例等指令的精细化视频编辑技术,实现对视频中对象、场景、风格的精准、一致性操控。
3. 人类反馈与强化学习: 包括但不限于基于规则的强化学习策略、高效 DPO 与 PPO 算法设计、基于用户反馈的RLHF 视频生成质量提升。
包括英文材料
机器学习+
算法+
CVPR+
NeurIPS+
ICML+
C+
C+++
Python+
TPAMI+
IJCV+
ICPC+
相关职位

logo of antgroup
实习研究型实习生

研究领域: 人工智能 项目简介: 原生多模态模型在设计时原生支持多模态,通过在音频、视频、图片、文本等多模态序列上进行预训练,可以理解、生成 或 操作 不同模态组合 ,原生多模态也被认为是继NLP大模型后实现AGI的必经之路。本课题主要研究原生多模态的核心问题, 包括但不限于: 1. 研究多个模态进行混合训练并实现各模态各任务均衡的方法 2. 研究理解和生成任务的统一框架,实现理解和生成任务的相互促进 3. 提升多模态in-context能力机制及提升多模态in-context learning能力

logo of tongyi
实习通义研究型实习生

多模态世界模型前沿技术研究项目,旨在进行如下课题研究: 1. 世界模型,包括但不限于:长视频生成、多模态交互式世界模型、实时音视频生成。 2. 原生多模态预训练,包括但不限于:融合语言与图像理解生成统一的多模态模型、音视频融合的生成模型、高效多模态预训练算法。 3. 人类反馈与强化学习,包括但不限于:基于规则的强化学习策略、高效 DPO 与 PPO 算法设计、基于万相用户反馈的RLHF 视频生成质量提升。

更新于 2025-09-03
logo of antgroup
实习研究型实习生

研究领域: 人工智能 项目简介: AIGC持续发展,以人为中心的图像、视频、语音等模型的生成能力愈发成熟,最近动动嘴就能PS、图像、视频及语音等产品例如25年3月发布的谷歌的Gemini 2.0Flash以及字节的SeedEdit等产品,迅速走进大众,AIGC等对抗愈发激烈且常态化。目前防控手段都是单模态进行防控,所有模态All-in-one的omini模型目前尚未有好的工作,同时结合类似deepseek多模态推理解决泛化能力、文本之外基于基于多模态生成式的视觉Reward去打造新的左右互搏式LMM范式,以及世界模型思路下去预测未来攻击的方案,都是当下可以探索的思路,目标是围绕AI信息原生可信打造成安全特色能力。

logo of alibaba
实习淘天集团研究型实

1. 探索多模态大模型的高效训练,包括预训练、SFT、及RLHF等技术; 2. 探索高效的视觉编码器结构、对齐范式、训练策略、数据清洗、质量分级、数据合成等; 3. 探索原生多模态大模型的架构与训练范式; 4. 探索图像、视频、音频的全模态大模型; 5. 结合淘天业务,推动多模态大模型在搜索、推荐、广告等业务中的应用。

更新于 2025-08-14