美团【基座大模型北斗实习】全模态Computer Use Agent前沿研究

实习兼职核心本地商业-基础研发平台2026-04-03地点：北京 | 上海 | 深圳状态：招聘

扫码手机上打开

任职要求

1、本科及以上学历，计算机、人工智能、自动化、数学等相关专业在读；
2、在以下一个或多个领域有较深入的研究或实践经验：多模态大模型（MLLM）、强化学习（RL）、Agent系统、GUI Agent / Computer Use、视觉-语言模型、跨模态融合；
3、熟悉Python，具备较强的工程实现能力，有大模型训练或推理实践经验者优先；
4、好奇心驱动，具备出色的问题分析与自主探索能力，能够在前沿不确定性较高…

登录查看完整任职要求

微信扫码，1秒登录

工作职责

简介：下一代智能体将超越纯文本交互，在屏幕、软件乃至物理世界中运作——这要求模型具备将图像、视频、音频、文本等多模态感知与可靠的实时行动能力统一融合的底层能力。本课题聚焦于将全模态（Omni-modal）理解能力深度融入Computer Use Agent（CUA），构建"边看、边听、边想、边做"的原生全模态智能体系统，推动智能体从单一文本工具调用走向真实数字环境中的多模态自主操作。

具体地，我们关注如下研究方向：
1、全模态感知与GUI交互的统一建模：探索将视觉（屏幕截图、视频流）、听觉（语音指令、系统音频）、文本等多模态信号在统一架构下进行融合理解，使Agent能够基于多模态上下文进行精准的GUI元素定位、状态识别与操作决策，提升在复杂真实桌面/移动端环境下的任务完成能力。
2、长时序跨应用任务规划与执行：研究Agent在跨小时级、多应用协同的长程数字任务中的持续意图保持、动态重规划与自主纠错能力，解决当前CUA在长交互链中出现的上下文丢失、计划漂移与误差累积问题，使Agent能够自主稳定地完成复杂的端到端工作流。
3、实时流式感知与连续决策：从"处理静态截图"升级到"实时屏幕流+音频流"的连续感知模式，探索Agent在动态变化的数字环境中进行实时状态追踪与即时响应的能力，支撑直播监控、实时协作等需要持续交互的场景。
4、全模态Agent的高效学习范式：探索面向全模态CUA场景的强化学习训练方法，包括但不限于：多模态环境下的奖励建模与过程奖励设计、GUI交互轨迹的大规模RL Scaling、基于环境反馈的自进化与持续学习机制，以及多模态推理与行动的联合优化策略。

📮 投递简历 ✨AI模拟面试

难度：

包括英文材料

学历+

大模型+

强化学习+

AI agent+

Python+

还有更多 •••

登录查看完整学习资料