香港新闻网5月6日电 香港中文大学与浙江人形机器人创新中心、浙江大学等团队联合提出RAM三维空间理解与操作模型,相关成果近日发表于国际学术期刊《科学·机器人》。该模型借鉴检索增强生成思想,为机器人配备可查询的外部三维知识库,按需检索物体几何属性与抓取点等信息,弥补视觉语言模型在三维空间理解上的不足,显著提升机器人在复杂长程任务中的操作可靠性。
让机器人从“听懂”到“会做”,空间智能迈出关键一步
近年来,以 GPT、Gemini 等为代表的视觉语言大模型(VLM)已能帮助机器人理解人类语言指令,并基于图像进行一定程度的场景推理。然而,从“理解指令”到“动手操作”之间,仍存在一道关键鸿沟:大模型懂语义,却未必懂三维空间;会生成任务步骤,却未必能把步骤转化为真实物理世界中的可执行动作。
在抓取、摆放、整理等机器人操作任务中,物体的位置、朝向、尺寸、功能平面和可抓取部位都直接影响执行结果。一旦模型对空间关系判断不准,就可能给出看似合理、实际无法落地的规划。如何让大模型获得可验证、可迁移的三维空间知识,正成为具身智能研究中的核心问题。
香港中文大学与浙江人形创新中心、浙江大学等团队在机器人空间智能领域取得重要突破,提出名为RAM的三维空间理解与操作模型,为提升机器人在复杂长程任务中的操作可靠性提供了新的技术路径。

图源:Science Robotics
“针对这一挑战,我们提出了RAM模型,其借鉴检索增强生成的思想,为大模型配备可查询的外部三维知识库。机器人执行任务时,模型可以按需检索物体类别、几何属性、功能平面、抓取点等信息,从而弥补视觉语言模型自身三维空间理解不足的问题。”团队成员、浙江人形机器人创新中心首席技术官许学成介绍。
这项研究的第一作者、香港中文大学博士后陈凯向 DeepTech 介绍,RAM 可以被理解为一套可检索的“三维物体知识库”:其中记录了各类日常物体的三维形状、稳定摆放方式、可抓取部位和功能平面等信息。它并不是重新训练 VLM,而是在模型规划前为其提供更精细的空间上下文,让大模型在任务规划时不只“知道要做什么”,也更清楚“应该如何在三维空间中做”。

图源:Science Robotics
14 项实验检验 RAM 的空间操作能力
据了解,为了验证 RAM 的能力,研究团队在真实机械臂平台上开展了 14 项空间操作实验,覆盖 31 个物体实例和 11 个物体类别。
实验首先考察语言指令驱动的空间操作,任务包括单物体单步骤、多物体单步骤和多物体多步骤三类。结果显示,RAM 在总计 120 次重复测试中取得 89.17% 的平均成功率,其中最复杂的多物体多步骤任务成功率达到 80%。
不过,当任务对物体的空间位置和朝向要求较高时,仅靠语言描述会变得冗长,也容易产生歧义。陈凯表示,图片在表达复杂空间布局时更加紧凑、直观。因此,团队进一步测试了 RAM 在图像引导操作中的表现。
以餐具摆放为例,系统只需输入一张目标摆放参考图,机器人便需要理解图中物体的相对位置和朝向,并将二维参考布局映射到当前三维工作空间中。实验显示,在单张图像引导空间操作中,常规平面场景成功率达到 92%,复杂高低平面场景成功率为 72%,突破了传统方法通常依赖俯视参考图的限制。
RAM 还被用于测试与空间推理相关的自主决策。陈凯解释,同一个目标任务往往存在多个语义上可行的方案,但考虑到物体尺寸、朝向、高度和位置关系后,其中一些方案在物理上并不可行。RAM 的价值在于让机器人在规划前显式获得这些空间约束,从而选择更可执行的策略。
在清理桌面任务中,机器人需要根据桌面高度、垃圾桶尺寸和物体位置选择合适的清扫方案。实验中,当直接清扫不可行时,系统能够规划借助簸箕等中间工具的间接方案,平均成功率达到 65%,展示了相比纯语义规划更强的物理可行性判断能力。
除了常见刚体物体,研究团队还探索了 RAM 在铰接物体和柔性物体操作中的扩展能力。对于笔记本电脑、抽屉等具有铰链结构的物体,团队采用多模板匹配策略,预设不同开合状态或滑动状态,并通过观测结果匹配最接近的模板,从而估计旋转轴或推动方向。基于这些空间信息,机器人能够完成笔记本电脑开合、抽屉推拉等操作。
在柔性物体操作方面,团队以叠衣服为例,将折叠过程拆解为展开、叠左袖、叠右袖等有限步骤,并为不同状态匹配相应模板,辅助系统完成分阶段操作。研究还初步探索了与触觉传感器的结合:当抓取过程中物体因重心分布不均发生相对移动时,系统可利用触觉反馈重新规划抓取姿势。
谈及未来方向,陈凯表示,“这一路径可以继续向更开放的物体类别、更复杂的物理交互和更长程的任务执行扩展。一方面,机器人所需的知识库可以从物体形状、抓取点和功能平面,进一步拓展到材质、受力、可变形性、操作失败模式和安全边界等更丰富的具身知识;另一方面,空间知识的使用也可以从任务规划阶段进一步延伸到执行过程,在机器人与环境交互的过程中持续感知、校正和重规划,使外部知识库提供的空间先验与机器人自身积累的操作经验形成闭环。对于家庭服务、养老照护等需要近距离人机交互的场景而言,这类能力将是机器人实现安全、可靠辅助操作的重要基础。” (完)