前沿 | 港中大参与突破:RAM模型让机器人从“听懂”到“会做”
创始人
2026-05-06 18:04:10
0

香港新闻网5月6日电 香港中文大学与浙江人形机器人创新中心、浙江大学等团队联合提出RAM三维空间理解与操作模型,相关成果近日发表于国际学术期刊《科学·机器人》。该模型借鉴检索增强生成思想,为机器人配备可查询的外部三维知识库,按需检索物体几何属性与抓取点等信息,弥补视觉语言模型在三维空间理解上的不足,显著提升机器人在复杂长程任务中的操作可靠性。

让机器人从“听懂”到“会做”,空间智能迈出关键一步

近年来,以 GPT、Gemini 等为代表的视觉语言大模型(VLM)已能帮助机器人理解人类语言指令,并基于图像进行一定程度的场景推理。然而,从“理解指令”到“动手操作”之间,仍存在一道关键鸿沟:大模型懂语义,却未必懂三维空间;会生成任务步骤,却未必能把步骤转化为真实物理世界中的可执行动作。

在抓取、摆放、整理等机器人操作任务中,物体的位置、朝向、尺寸、功能平面和可抓取部位都直接影响执行结果。一旦模型对空间关系判断不准,就可能给出看似合理、实际无法落地的规划。如何让大模型获得可验证、可迁移的三维空间知识,正成为具身智能研究中的核心问题。

香港中文大学与浙江人形创新中心、浙江大学等团队在机器人空间智能领域取得重要突破,提出名为RAM的三维空间理解与操作模型,为提升机器人在复杂长程任务中的操作可靠性提供了新的技术路径。

图源:Science Robotics

“针对这一挑战,我们提出了RAM模型,其借鉴检索增强生成的思想,为大模型配备可查询的外部三维知识库。机器人执行任务时,模型可以按需检索物体类别、几何属性、功能平面、抓取点等信息,从而弥补视觉语言模型自身三维空间理解不足的问题。”团队成员、浙江人形机器人创新中心首席技术官许学成介绍。

这项研究的第一作者、香港中文大学博士后陈凯向 DeepTech 介绍,RAM 可以被理解为一套可检索的“三维物体知识库”:其中记录了各类日常物体的三维形状、稳定摆放方式、可抓取部位和功能平面等信息。它并不是重新训练 VLM,而是在模型规划前为其提供更精细的空间上下文,让大模型在任务规划时不只“知道要做什么”,也更清楚“应该如何在三维空间中做”。

图源:Science Robotics


14 项实验检验 RAM 的空间操作能力

据了解,为了验证 RAM 的能力,研究团队在真实机械臂平台上开展了 14 项空间操作实验,覆盖 31 个物体实例和 11 个物体类别。

实验首先考察语言指令驱动的空间操作,任务包括单物体单步骤、多物体单步骤和多物体多步骤三类。结果显示,RAM 在总计 120 次重复测试中取得 89.17% 的平均成功率,其中最复杂的多物体多步骤任务成功率达到 80%。

不过,当任务对物体的空间位置和朝向要求较高时,仅靠语言描述会变得冗长,也容易产生歧义。陈凯表示,图片在表达复杂空间布局时更加紧凑、直观。因此,团队进一步测试了 RAM 在图像引导操作中的表现。

以餐具摆放为例,系统只需输入一张目标摆放参考图,机器人便需要理解图中物体的相对位置和朝向,并将二维参考布局映射到当前三维工作空间中。实验显示,在单张图像引导空间操作中,常规平面场景成功率达到 92%,复杂高低平面场景成功率为 72%,突破了传统方法通常依赖俯视参考图的限制。

RAM 还被用于测试与空间推理相关的自主决策。陈凯解释,同一个目标任务往往存在多个语义上可行的方案,但考虑到物体尺寸、朝向、高度和位置关系后,其中一些方案在物理上并不可行。RAM 的价值在于让机器人在规划前显式获得这些空间约束,从而选择更可执行的策略。

在清理桌面任务中,机器人需要根据桌面高度、垃圾桶尺寸和物体位置选择合适的清扫方案。实验中,当直接清扫不可行时,系统能够规划借助簸箕等中间工具的间接方案,平均成功率达到 65%,展示了相比纯语义规划更强的物理可行性判断能力。

除了常见刚体物体,研究团队还探索了 RAM 在铰接物体和柔性物体操作中的扩展能力。对于笔记本电脑、抽屉等具有铰链结构的物体,团队采用多模板匹配策略,预设不同开合状态或滑动状态,并通过观测结果匹配最接近的模板,从而估计旋转轴或推动方向。基于这些空间信息,机器人能够完成笔记本电脑开合、抽屉推拉等操作。

在柔性物体操作方面,团队以叠衣服为例,将折叠过程拆解为展开、叠左袖、叠右袖等有限步骤,并为不同状态匹配相应模板,辅助系统完成分阶段操作。研究还初步探索了与触觉传感器的结合:当抓取过程中物体因重心分布不均发生相对移动时,系统可利用触觉反馈重新规划抓取姿势。

谈及未来方向,陈凯表示,“这一路径可以继续向更开放的物体类别、更复杂的物理交互和更长程的任务执行扩展。一方面,机器人所需的知识库可以从物体形状、抓取点和功能平面,进一步拓展到材质、受力、可变形性、操作失败模式和安全边界等更丰富的具身知识;另一方面,空间知识的使用也可以从任务规划阶段进一步延伸到执行过程,在机器人与环境交互的过程中持续感知、校正和重规划,使外部知识库提供的空间先验与机器人自身积累的操作经验形成闭环。对于家庭服务、养老照护等需要近距离人机交互的场景而言,这类能力将是机器人实现安全、可靠辅助操作的重要基础。”  (完)

相关内容

热门资讯

中国工商银行(亚洲)扩大“湾区... 香港新闻网7月31日电 中国工商银行(亚洲)31日宣布扩大“湾区账户通”服务账户办理地区至中国内地所...
香港雇员2024年工资中位数达... 香港中通社3月24日电(记者 谭畅)香港特区政府统计处24日公布数字,去年5月至6月香港雇员的每月工...
研究指香港未来10年点对点交通... 香港中通社3月25日电 香港特区政府正就网约车平台研究相关规管措施,网约车平台Uber于25日公布香...
特首办谈李家超再访中东   香港中通社5月6日电 题:特首办谈李家超再访中东  香港中通社记者 罗光萍 陈卓仪  香港特区行...
香港警队新任“一哥”周一鸣:警... 香港新闻网4月2日电(记者 张明臻)香港新任警务处处长周一鸣今天履新,他在警察总部会见传媒时提出未来...
香港歌手李国祥去世 终年60岁 香港新闻网3月29日电 香港歌手李国祥29日被证实离世,终年60岁。其好友周启生接受传媒访问时证实死...
中央赠港大熊猫即将亮相市民期待... 香港中通社12月6日电题:中央赠港大熊猫即将亮相 市民期待拆“礼物”作者陈卓仪 梁嘉轩中央赠港大熊猫...
180度大转弯?美国豁免手机、... 香港新闻网4月13日电 美国海关与边境保护局11日晚宣布,联邦政府已同意对智能手机、电脑、芯片等电子...
中国收紧7类稀土出口管制 ... 香港新闻网4月7日电 中国4月4日反击美国征收对等关税,包括当天起对7类中重稀土实施出口管制。这些...
香港廉署接待“一带一路”两国斯... 香港新闻网3月26日电 香港廉政公署3月24日起接待一带一路国家斯里兰卡及赞比亚的反贪机构高层代表...