美团【大模型北斗实习】多模态智能体算法研究与自主规划

实习兼职核心本地商业-基础研发平台2025-05-23地点：北京 | 上海状态：招聘

扫码手机上打开

任职要求

1）在CV、NLP、多模态等相关领域有其中一个或多个方向有深入的研究经历。
2）熟悉TensorFlow、PyTorch等深度学习框架。
3）熟练使用Python、C++等至少一门…

登录查看完整任职要求

微信扫码，1秒登录

工作职责

自主任务执行的计算智能体是AI应用的重要场景之一，具备充分的技术深度(如浅层环境感知能力和深层规划决策能力)和广泛的应用价值(如智能助手、具身智能等)。本课题旨在构建业界前沿的多模态智能体，包括2D数字世界的Computer Use和Browser Use，以及3D物理世界的具身智能等能力。探索优化智能体在视觉理解、决策反思、强化学习等方向的技术挑战。
研究内容包括：
1）智能体算法优化：提升智能体视觉定位和决策反思水平，探索强化学习在智能体决策的应用价值，构建2D数字和3D物理环境的环境感知能力。
2）Compute & Brower Use：探索多模态大模型自主规划完成计算机、手机、互联网网页的操作能力。
3）具身智能：探索多模态大模型的空间理解和自主规划能力，能够完成物理世界操作能力。

📮 投递简历 ✨AI模拟面试

难度：

包括英文材料

NLP+

TensorFlow+

PyTorch+

深度学习+

Python+

C+++

还有更多 •••

登录查看完整学习资料

相关职位

【大模型北斗实习】Operator 智能体方向算法研究

实习核心本地商业-基

随着大模型与生成式 AI 技术的快速发展，在多模态和复杂场景下让 Agent 具备更强大的决策和执行能力成为未来的重要趋势。OpenAI Operator 通过结合强化学习的多步决策机制与大模型的理解、推理优势，可在多种任务场景（如 Computer Use、网页浏览等）中实现高效且灵活的自动化决策和任务执行。本课题将聚焦多样化业务场景和复杂环境下的自适应策略设计、规划与推理，进一步提升 Agent 在真实应用中的表现。主要研究内容包括但不限于： 1) 多模态与多步决策：设计并构建包含多模态信息、计算机交互、网络搜索、函数调用等多维度的复杂环境，研究如何利用端到端强化学习来进行多步决策，从而完成更具挑战的任务。 2) 策略学习与优化：在多种强化学习算法（如 PPO、GRPO 等）的框架下，探索高效的策略优化方法，为 Operator Agent 提供强大的决策和执行能力。 3) 规划与推理：借助大模型的知识与推理能力，设计可解释的多步规划算法；研究如何与外部工具或知识库交互，以扩展 Agent 的能力边界并提升其在真实环境中的自动化决策表现。

更新于 2025-05-23北京|上海

【北斗实习】大模型应用算法工程师-【生成式推荐系统】

实习核心本地商业-业

【课题说明】传统的向量召回和深度学习推荐范式在深度交互、冷启动、长尾商品发现、多场景适配等方面仍存在诸多挑战。生成式推荐系统以大模型为核心，具备强大的内容理解、知识推理和个性化内容生成能力。通过将用户历史行为、上下文信息、多模态内容等深度融合，生成式推荐系统能够实现用户意图的主动理解、候选内容的生成与多场景下的精准推荐，极大提升用户体验和平台生态活力。【建议研究方向】 1.生成式召回：研究基于大模型的生成式召回方法，实现以模型参数为载体的候选内容记忆与生成，突破传统召回技术的局限。 2.多轮交互推荐技术：探索多轮用户引导与深度交互机制，实时理解用户意图变化，满足“千人千面”的个性化需求。 3.推荐系统的可解释性与安全性：研究大模型驱动的推荐逻辑可解释性方法，提升用户对推荐决策的理解和信任。同时探索生成式推荐中的内容安全，保障推荐系统的合规性与用户体验。 4.推荐智能体与复杂任务规划：构建具备推理、规划和自主决策能力的推荐智能体，支持跨领域、跨步骤的复杂任务推荐。

更新于 2025-05-27北京

【大模型北斗实习】基于原生语音大模型的情感陪伴智能体

实习核心本地商业-基

该课题聚焦于利用原生语音大模型构建情感陪伴 Agent，通过实时全双工交互，精准理解和感知用户情绪，凭借高情商为用户提供极具价值的回复，旨在为用户打造温暖、贴心且高度智能的情感陪伴体验。研究内容： 1）模型优化：参与优化原生语音多模态大模型，通过改进Speech Tokenizer和文本-语音的对齐机制等措施，提升模型对语音中包含的语义以及声学信息的实时理解与处理能力，增强其对用户情绪的精准识别。 2）交互设计：设计高效、自然的全双工交互机制，确保 Agent 与用户之间的交流流畅且符合日常沟通习惯，提高交互的实时性与稳定性。 3）情商塑造：运用先进技术手段，赋予 Agent 高情商特质，使其能够根据用户情绪做出恰当、暖心且富有智慧的回应，提升用户情感体验。 4）数据构建：收集、整理、合成与情感陪伴相关的语音对话数据，为模型训练与优化提供高质量的数据支持，推动模型性能持续提升。

更新于 2025-05-23北京|上海

【大模型北斗实习】多模态融合及多模态实时交互算法研究

实习核心本地商业-基

大语言模型（LLM）最近取得的突破极大地加速了多模态大语言模型（MLLM）的发展。全模态多模态大语言模型（Omni-MLLM）通过融入如视频、音频等额外的非语言模态，拓展了多模态大语言模型的能力，从而有助于更全面、多维度地理解各种模态，提供更强的智能以及更智能的交互模式。研究方向包括不限于： 1) 多模态表征高效对齐研究：研究如何在统一模型架构下提取并共享视觉、语音、语言等模态的特征；探索基于对比学习、自监督学习的方法，优化多模态对齐过程；针对视频、音频等数据，研究时间序列信息的对齐技巧。 2) 多模态知识迁移与涌现能力研究：研究知识在不同模态间的迁移规律，激发模型在跨模态任务中的涌现能力，实现对未见任务的泛化。 3) 多模态融合：探索统一的全模态大模型框架，研究高效全模态预训练技术，探索跨模态数据上的scaling law和智能涌现能力。使之能够高效处理文本、音频、图像和视频输入的任意组合，并生成涵盖文本、音频和图像等多种模态的输出。 4）实时多模态交互：探索高效的多模态智能交互技术，增强系统在多模场景下的智能，提升人机实时音视频交互体验。

更新于 2025-05-23北京|上海