logo of meituan

美团【大模型北斗实习】具身智能技术研究

实习兼职核心本地商业-基础研发平台地点:北京 | 上海 | 深圳状态:招聘

任职要求


1.计算机科学、机器人学、人工智能、自动化或相关领域的在读硕士或博士研究生。
2.具备扎实的编程能力,精通 Python,熟悉 C++者优先,且熟练掌握 PyTorch 框架。
3.对机器学习、深度学习计算机视觉等领域有深入的理论理解。
4.在具身智…
登录查看完整任职要求
微信扫码,1秒登录

工作职责


深度参与具身智能“感知-决策-行动”技术全链路的技术攻关,在以下一个或多个方向上进行深入研究:
1.感知与决策规划:提升多模态大模型在具身场景下的能力表现,包括在复杂动态环境中对物体位姿、状态、物理属性的精准理解,以及对复杂任务的任务推理与拆解能力。
2.行动与控制:基于真机示教数据以及海量互联网视频数据,训练机器人掌握高精度的操作技能。在机器人上研究并实践强化学习算法,优化机器人的动作策略,提升其在物理世界中的动作鲁棒性和技能泛化。
3.仿真与虚实迁移:参与构建高逼真度的物理仿真环境(如 Isaac Sim, SAPIEN 等),用于大规模、低成本地训练和验证具身智能算法。
包括英文材料
NLP+
TensorFlow+
PyTorch+
深度学习+
Python+
C+++
NeurIPS+
还有更多 •••
相关职位

logo of meituan
实习核心本地商业-基

自主任务执行的计算智能体是AI应用的重要场景之一,具备充分的技术深度(如浅层环境感知能力和深层规划决策能力)和广泛的应用价值(如智能助手、具身智能等)。本课题旨在构建业界前沿的多模态智能体,包括2D数字世界的Computer Use和Browser Use,以及3D物理世界的具身智能等能力。探索优化智能体在视觉理解、决策反思、强化学习等方向的技术挑战。 研究内容包括: 1)智能体算法优化:提升智能体视觉定位和决策反思水平,探索强化学习在智能体决策的应用价值,构建2D数字和3D物理环境的环境感知能力。 2)Compute & Brower Use:探索多模态大模型自主规划完成计算机、手机、互联网网页的操作能力。 3)具身智能:探索多模态大模型的空间理解和自主规划能力,能够完成物理世界操作能力。

更新于 2025-05-23北京|上海
logo of meituan
实习核心本地商业-基

随着大语言模型从通用问答走向复杂任务执行,Agent能力正成为模型演进的关键方向。传统大模型虽具备海量知识,但面对复杂任务的自主规划、工具调用及长期记忆管理时,往往难以应对。本课题旨在探索Midtrain这一关键阶段,推动通用基座模型向原生Agentic Foundation Model演进,为构建下一代自主智能体提供坚实的底座支持。 1. 大规模高质量数据体系与合成数据建设 数据体系构建:建设 Trillion 级别的大规模跨模态数据处理与合成链路。负责从训练数据获取到配比建模的全流程优化 合成方法演进:探索大规模合成数据 (Synthetic Data) 与自蒸馏 (Self-distillation) 技术,制定合成数据应用策略 理论探索:研究Data Scaling Laws,解决数据扩展中的模型坍塌(Model Collapse)与多样性瓶颈问题,通过课程学习(Curriculum Learning)等训练策略,显著优化Token/FLOPs转化效率 2. 长上下文 (Long Context) 与高效架构演进 长窗口突破: 持续Scaling Up模型的Context Length,优化超长上下文机制,重点提升LongCat基座模型在长上下文上的表现 架构优化: 探索并验证MoE(混合专家)、稀疏注意力(Sparse Attention)、线性注意力等模型结构;结合剪枝与稀疏化技术,协同优化训练与推理效率,提升超长上下文场景下的效率 上下文管理: 探索逐轮次和跨多轮次的上下文管理方法,并建立对应评测体系,从而减少冗余信息堆叠,实现高效思考和性能提升 3. 多模态能力融合与 Agent 赋能 模态融合:探索多模态预训练新范式,突破模态融合瓶颈。利用多模态扩展定律指导数据与训练方案,提升模型在多模态交互场景下的原生能力 复杂场景落地:面向 Agent、具身智能等前沿场景,提升模型的多模态指令遵循与复杂任务规划能力 4. 下一代训练范式与前沿技术探索 自进化机制:协同上下游团队,探索模型自进化(Self-evolution)机制,研究RL在Mid-training阶段的应用 能力扩展:研究推理阶段扩展(Test-time Scaling)及全模态链式思维(Omni-modal CoT),推动模型从单纯的“知识记忆”向“深度推理与问题解决”演进

更新于 2026-04-07北京|上海
logo of meituan
实习核心本地商业-基

简介:从多模态大模型基座延伸到具身智能,我们的目标是做到具身智能的“GPT时刻”,具备test-time zero-shot/few-shot的跨本体、跨任务泛化。在这个过程中,我们进行具身智能在泛化能力评测分析和关键迭代路径的探索,包括但不限于: 1、探索激发多模态大模型Training-Free泛化能力的Data-Scaling方案(包括VLA和VA),迁移人类数据到具身本体,包括latent action和unified model等方向。 2、探索通过世界模型作为物理仿真引擎的进阶,兼顾仿真和真机的优点,实现泛化评测、强化学习和多样性数据合成。 3、探索通过环境交互的在线强化学习,涉及仿真环境的搭建、数据合成和真机实验,研究通过自我进化的下一代智能提升的关键途径。

更新于 2026-04-03北京|上海
logo of meituan
实习核心本地商业-基

本课题聚焦大模型在复杂场景下的高阶认知能力突破,面向真实需求构建具备自主推理与协作进化能力的智能系统。通过前沿算法创新与工业级场景验证,助力研究者攻克高度自适应智能体架构设计、复杂决策优化等关键技术难题。 核心研究内容包括: 1)构建复杂情境推理框架:开发能够处理模糊信息、进行合理假设并自主验证的决策系统,突破不完全数据下的逻辑闭环能力。 2)建立多智能体协作范式:研究分层任务拆解机制与分布式决策架构,实现跨智能体的动态协调与效能优化。 3)设计任务驱动进化机制:结合强化学习与反思模型,持续提升智能体在业务场景中的自主适应与问题排查能力。 4)开发模型可解释性框架:创新推理过程可视化技术,建立决策依据追溯机制,显著降低模型幻觉风险。 5)探索人机协同新形态:构建具备环境感知与交互进化能力的智能助手,推动大模型在真实场景的可靠落地。

更新于 2025-05-23北京|上海