美团【基座大模型北斗实习】全模态Computer Use Agent前沿研究
实习兼职核心本地商业-基础研发平台地点:北京 | 上海 | 深圳状态:招聘
任职要求
1、本科及以上学历,计算机、人工智能、自动化、数学等相关专业在读; 2、在以下一个或多个领域有较深入的研究或实践经验:多模态大模型(MLLM)、强化学习(RL)、Agent系统、GUI Agent / Computer Use、视觉-语言模型、跨模态融合; 3、熟悉Python,具备较强的工程实现能力,有大模型训练或推理实践经验者优先; 4、好奇心驱动,具备出色的问题分析与自主探索能力,能够在前沿不确定性较高…
登录查看完整任职要求
微信扫码,1秒登录
工作职责
简介:下一代智能体将超越纯文本交互,在屏幕、软件乃至物理世界中运作——这要求模型具备将图像、视频、音频、文本等多模态感知与可靠的实时行动能力统一融合的底层能力。本课题聚焦于将全模态(Omni-modal)理解能力深度融入Computer Use Agent(CUA),构建"边看、边听、边想、边做"的原生全模态智能体系统,推动智能体从单一文本工具调用走向真实数字环境中的多模态自主操作。 具体地,我们关注如下研究方向: 1、全模态感知与GUI交互的统一建模:探索将视觉(屏幕截图、视频流)、听觉(语音指令、系统音频)、文本等多模态信号在统一架构下进行融合理解,使Agent能够基于多模态上下文进行精准的GUI元素定位、状态识别与操作决策,提升在复杂真实桌面/移动端环境下的任务完成能力。 2、长时序跨应用任务规划与执行:研究Agent在跨小时级、多应用协同的长程数字任务中的持续意图保持、动态重规划与自主纠错能力,解决当前CUA在长交互链中出现的上下文丢失、计划漂移与误差累积问题,使Agent能够自主稳定地完成复杂的端到端工作流。 3、实时流式感知与连续决策:从"处理静态截图"升级到"实时屏幕流+音频流"的连续感知模式,探索Agent在动态变化的数字环境中进行实时状态追踪与即时响应的能力,支撑直播监控、实时协作等需要持续交互的场景。 4、全模态Agent的高效学习范式:探索面向全模态CUA场景的强化学习训练方法,包括但不限于:多模态环境下的奖励建模与过程奖励设计、GUI交互轨迹的大规模RL Scaling、基于环境反馈的自进化与持续学习机制,以及多模态推理与行动的联合优化策略。
包括英文材料
学历+
大模型+
https://www.youtube.com/watch?v=xZDB1naRUlk
You will build projects with LLMs that will enable you to create dynamic interfaces, interact with vast amounts of text data, and even empower LLMs with the capability to browse the internet for research papers.
https://www.youtube.com/watch?v=zjkBMFhNj_g
强化学习+
https://cloud.google.com/discover/what-is-reinforcement-learning?hl=en
Reinforcement learning (RL) is a type of machine learning where an "agent" learns optimal behavior through interaction with its environment.
https://huggingface.co/learn/deep-rl-course/unit0/introduction
This course will teach you about Deep Reinforcement Learning from beginner to expert. It’s completely free and open-source!
https://www.kaggle.com/learn/intro-to-game-ai-and-reinforcement-learning
Build your own video game bots, using classic and cutting-edge algorithms.
AI agent+
https://www.ibm.com/think/ai-agents
Your one-stop resource for gaining in-depth knowledge and hands-on applications of AI agents.
Python+
https://liaoxuefeng.com/books/python/introduction/index.html
中文,免费,零起点,完整示例,基于最新的Python 3版本。
https://www.learnpython.org/
a free interactive Python tutorial for people who want to learn Python, fast.
https://www.youtube.com/watch?v=K5KVEU3aaeQ
Master Python from scratch 🚀 No fluff—just clear, practical coding skills to kickstart your journey!
https://www.youtube.com/watch?v=rfscVS0vtbw
This course will give you a full introduction into all of the core concepts in python.
还有更多 •••