logo of meituan

美团【北斗】视觉生成基座和交互式视频研究员

校招全职核心本地商业-基础研发平台地点:北京 | 上海 | 深圳状态:招聘

任职要求


1.熟悉扩散模型、VAE等相关研究进展
2.熟悉PyTorch,有充分的动手实践经验
加分项:
1.有图像/视频生成、多模态大模型相关研究和实习经历,有影响力的开源项目中做出过核心贡献
2.发表过高水平论文(如ICLR、CVPR、ICCV等),有相关竞赛经历并取得名次

岗位吸引力:
1.极具前沿性和爆发力的研究方向:你将站在视频生成基座Scaling、实时交互式生成、世界模型的交叉前沿,每个技术方向都没有完全收敛,内容创作、交互式生成、具身智能的任何一个方向爆发,你做的模型都是第一受益者。
2.超大规模基座模型经验——…
登录查看完整任职要求
微信扫码,1秒登录

工作职责


我们正在构建具备物理世界感知、理解、仿真能力与支撑数字世界高质量呈现的本地生活视觉技术引擎,让每一次连接更智能,让物理世界的烟火气更美好。

团队介绍:
作为美团官方的视觉AI基础模型团队,负责数字世界和物理世界等本地生活全场景多模态技术的前沿探索和应用,在AIGC生成、虚拟人交互、多模态理解等领域持续沉淀行业领先的技术成果。

研究内容:
研究方向包括但不限于:
1. 高效率、低损失、高压缩比的图像视频VAE和tokenizer;
2. 图像、视频、音视频统一生成模型的架构、训练和推理探索,包括稀疏架构、大尺寸MoE、自回归生成等;
3. 功能模型,包括参考生成、长视频生成、流式实时视频生成、音视频生成等;
4.实时交互视频世界模型的长时空一致性、动态性和交互控制能力增强,以及在可交互视频、虚拟人实时交互场景的应用。
包括英文材料
PyTorch+
大模型+
还有更多 •••