美团多模态模型研究-具身智能方向算法实习生
任职要求
1. 硕士及以上学历,计算机、数学、统计学或相关专业。 2. 熟悉Java/Python/C++等编程语言,良好的编码习惯和一定的工程能力 。 3. 具有深度学习和大模型原理的基础知识,具有多模态大模型、具身智能或强化学习之一的研究经验。 4. 良好的沟通能力、团队合作精神以及较强的问题解决能力。 5. 对每一行代…
工作职责
主要负责多模态大模型在具身智能方向的模型能力分析和训练策略优化,并且对训练数据、训练策略和模型能力之间的关系进行研究分析,产出可行的模型评测方案和训练策略,具体工作内容包括但不限于: 1. 追踪多模态大模型在具身智能方向的前沿进展,积极学习新的模型结构、前沿模型认知,并进行深入分析。 2. 建设验证具身智能的GPT时刻的评测方案和度量分析方法,指引行业的技术迭代; 3. 探索VLA的data-scaling方案,通过VLM的基座能力提升来推进具身任务泛化,实现zero-shot/few-shot的跨任务、跨本体的泛化; 4. 积极探索多模态大模型同环境交互的学习方法,研究通过强化学习的下一代智能提升的关键途径。 5. 与各相关部门保持良好沟通,深度参与多模态模型的训练过程,共同推动多模态大模型持续优化。
负责VLA(视觉-语言-行动)多模态大模型在自动驾驶和机器人场景中的前沿算法研究,涵盖场景理解、语义引导决策、时空建模等核心能力; 主导VLA模型预研,构建可泛化、高可解释性的多模态基座大模型,为未来6~12个月技术演进提供基础支撑; 与高校及实习生协作,探索VLA的长期发展方向,包括表征学习,具身智能、慢系统蒸馏快系统等核心议题; 撰写高水平论文、技术文档,推动VLA方向在CVPR、NeurIPS、ICLR、CoRL等会议中的学术影响力。
该岗位分3个方向,请同学们仔细阅读岗位JD,选择适合自己的方向进行投递。 【机器人算法工程师】(规划&控制方向) 职位描述: 1、负责机器人运动学、动力学建模,并实现机器人运动或者路径规划,运动控制等算法; 2、有机器人导航, 机械手臂抓取, 液压控制等相关机器人项目经验; 3、对接硬件、产品等职能同事,实现机器人整体功能的实现和调试; 4、负责算法的优化、移植和产品化。 【机器人算法工程师】(感知&建模方向) 职位描述: 1、负责工程机械智能化场景中基于深度学习激光雷达点云的3D目标检测、分割、跟踪等算法的研发及迭代优化; 2、参与工程机械智能化项目中的感知研发,开发并优化适用于复杂工况(如施工场景、恶劣天气条件)的点云处理和感知算法。 3、推动感知算法在工程机械智能化产品中的落地与优化提升,确保算法的高效运行和实时性; 4、结合工程机械的实际需求,对激光雷达点云数据进行预处理、特征提取和分析,为后续的感知任务提供高质量的数据支持; 5、参与多传感器融合算法的研发,探索激光雷达与其他传感器(如摄像头、IMU等)的协同工作模式,提高工程机械的环境感知能力; 6、跟踪和研究点云感知领域的最新技术动态,将其应用到实际项目中,保持公司技术的领先性。 【机器人算法工程师】(具身智能方向) 职位描述: 1、深入研究机器人多模态大模型(VLA模型)的理论及应用,包括预训练、微调策略、以及效果优化; 2、负责基于大模型的决策控制算法设计,探索前沿模仿学习(如 ACT、DP)及 Model-Based RL 算法在机器人上的研究与创新; 3、基于大模型开发创新算法框架,探索具身智能机器人实际场景中的应用方向,如 RT 系列等; 4、负责最新文献调研,跟踪多模态模型与机器人领域结合的技术前沿,提出具有创新性的研究思路; 5、参与并主导自定义数据集构建、特定任务的模型训练与评估; 6、推动具身智能系统算法在复杂场景下的理论研究,探索工程机械场景智能化解决方案。
自主任务执行的计算智能体是AI应用的重要场景之一,具备充分的技术深度(如浅层环境感知能力和深层规划决策能力)和广泛的应用价值(如智能助手、具身智能等)。本课题旨在构建业界前沿的多模态智能体,包括2D数字世界的Computer Use和Browser Use,以及3D物理世界的具身智能等能力。探索优化智能体在视觉理解、决策反思、强化学习等方向的技术挑战。 研究内容包括: 1)智能体算法优化:提升智能体视觉定位和决策反思水平,探索强化学习在智能体决策的应用价值,构建2D数字和3D物理环境的环境感知能力。 2)Compute & Brower Use:探索多模态大模型自主规划完成计算机、手机、互联网网页的操作能力。 3)具身智能:探索多模态大模型的空间理解和自主规划能力,能够完成物理世界操作能力。
深度参与具身智能“感知-决策-行动”技术全链路的技术攻关,在以下一个或多个方向上进行深入研究: 1.感知与决策规划:提升多模态大模型在具身场景下的能力表现,包括在复杂动态环境中对物体位姿、状态、物理属性的精准理解,以及对复杂任务的任务推理与拆解能力。 2.行动与控制:基于真机示教数据以及海量互联网视频数据,训练机器人掌握高精度的操作技能。在机器人上研究并实践强化学习算法,优化机器人的动作策略,提升其在物理世界中的动作鲁棒性和技能泛化。 3.仿真与虚实迁移:参与构建高逼真度的物理仿真环境(如 Isaac Sim, SAPIEN 等),用于大规模、低成本地训练和验证具身智能算法。