logo of meituan

美团【北斗】多模态理解后训练与Agent算法研究员

校招全职核心本地商业-基础研发平台地点:北京 | 上海 | 深圳状态:招聘

任职要求


1、具备视觉多模态大模型的预训练或后训练研究经历;
2、熟悉PyTorch,有充分的动手实践经验。
加分项:
1、社区影响力:在多模态大模型领域有影响力的开源项目中做出过核心贡献
2、学术影响力:发表过高水平论文(如ICLR、CVPR、ICCV等),有相关…
登录查看完整任职要求
微信扫码,1秒登录

工作职责


我们正在构建具备物理世界感知、理解、仿真能力与支撑数字世界高质量呈现的本地生活视觉技术引擎,让每一次连接更智能,让物理世界的烟火气更美好。

团队介绍:
作为美团官方的视觉AI基础模型团队,负责数字世界和物理世界等本地生活全场景多模态技术的前沿探索和应用,在AIGC生成、虚拟人交互、多模态理解等领域持续沉淀行业领先的技术成果。

研究方向包括但不限于:
1、基于多模态预训练和后训练相关技术创新,提升多模态大模型在OCR、文档图表解析、Visual Grounding、细粒度感知、视觉问答等核心视觉理解任务上的能力上限;
2、索多模态强化学习方案创新设计,实现视觉感知、多模态理解等场景下的高性能可信输出和幻觉抑制;
3、增强模型的视觉推理能力(Visual CoT、PRM等)、工具调用与Agent能力、长上下文视觉理解能力和GUI能力,提升模型在视觉感知、理解、规划决策的长程复杂任务上的综合表现。
包括英文材料
大模型+
PyTorch+
还有更多 •••