通义研究型实习生-原生多模态视频生成技术研究

实习兼职通义研究型实习生2025-09-12地点：北京 | 杭州状态：招聘

扫码手机上打开

任职要求

1. 具备扎实的多模态或者机器学习算法基础，有成果发表在CVPR，NeurIPS，ICML，ICLR，TPAMI，IJCV等顶级会议期刊者优先。
2. 熟练掌握C/C+…

登录查看完整任职要求

微信扫码，1秒登录

工作职责

本项目旨在深入探索原生多模态视频生成的前沿技术，构建从内容生成到智能应用的完整技术闭环。具体研究课题包括但不限于：
1. 长视频生成： 重点研究能够生成分钟级长视频的算法，攻克生成过程中的稳定性与时序一致性难题，实现流畅、高质量的视频流输出。
2. 可控视频编辑与下游应用 : 开发基于自然语言、图像示例等指令的精细化视频编辑技术，实现对视频中对象、场景、风格的精准、一致性操控。
3. 人类反馈与强化学习: 包括但不限于基于规则的强化学习策略、高效 DPO 与 PPO 算法设计、基于用户反馈的RLHF 视频生成质量提升。

📮 投递简历 ✨AI模拟面试

难度：

包括英文材料

机器学习+

算法+

CVPR+

NeurIPS+

ICML+

ICLR+

还有更多 •••

登录查看完整学习资料

相关职位

研究型实习生-原生多模态大模型

实习研究型实习生

研究领域：人工智能项目简介：原生多模态模型在设计时原生支持多模态，通过在音频、视频、图片、文本等多模态序列上进行预训练，可以理解、生成或操作不同模态组合，原生多模态也被认为是继NLP大模型后实现AGI的必经之路。本课题主要研究原生多模态的核心问题, 包括但不限于: 1. 研究多个模态进行混合训练并实现各模态各任务均衡的方法 2. 研究理解和生成任务的统一框架，实现理解和生成任务的相互促进 3. 提升多模态in-context能力机制及提升多模态in-context learning能力

北京|上海|杭州

研究型实习生-多模态世界模型前沿技术研究

实习通义研究型实习生

多模态世界模型前沿技术研究项目，旨在进行如下课题研究： 1. 世界模型，包括但不限于：长视频生成、多模态交互式世界模型、实时音视频生成。 2. 原生多模态预训练，包括但不限于：融合语言与图像理解生成统一的多模态模型、音视频融合的生成模型、高效多模态预训练算法。 3. 人类反馈与强化学习，包括但不限于：基于规则的强化学习策略、高效 DPO 与 PPO 算法设计、基于万相用户反馈的RLHF 视频生成质量提升。

更新于 2025-09-03北京|杭州

研究型实习生-以人为中心的全要素AIGC鉴真能力研究

实习研究型实习生

研究领域：人工智能项目简介： AIGC持续发展，以人为中心的图像、视频、语音等模型的生成能力愈发成熟，最近动动嘴就能PS、图像、视频及语音等产品例如25年3月发布的谷歌的Gemini 2.0Flash以及字节的SeedEdit等产品，迅速走进大众，AIGC等对抗愈发激烈且常态化。目前防控手段都是单模态进行防控，所有模态All-in-one的omini模型目前尚未有好的工作，同时结合类似deepseek多模态推理解决泛化能力、文本之外基于基于多模态生成式的视觉Reward去打造新的左右互搏式LMM范式，以及世界模型思路下去预测未来攻击的方案，都是当下可以探索的思路，目标是围绕AI信息原生可信打造成安全特色能力。

北京|上海|杭州

研究型实习生-搜推智能产品-多模态算法

实习淘天集团研究型实

1. 探索多模态大模型的高效训练，包括预训练、SFT、及RLHF等技术； 2. 探索高效的视觉编码器结构、对齐范式、训练策略、数据清洗、质量分级、数据合成等； 3. 探索原生多模态大模型的架构与训练范式； 4. 探索图像、视频、音频的全模态大模型； 5. 结合淘天业务，推动多模态大模型在搜索、推荐、广告等业务中的应用。

更新于 2025-08-14北京|杭州