Science Robotics|耶鲁大学开源视触觉新范式,看出机器人柔性手的力感知
发布日期:2025-07-08 
图片

摘要:在机器人视触觉传感领域,如何兼顾成本与性能始终是一大挑战。耶鲁大学在《Science Robotics》上发表最新研究,提出了一种“Forces for Free”(F3)新范式。该研究通过观测一个经过特殊优化的开源柔性手(F3 Gripper)的形变,仅利用标准RGB摄像头,便能精准估算接触力,为机器人赋予了几乎零额外硬件成本的力感知能力。借助这样的感知能力,能完成小孔插销、擦拭曲面,甚至写书法这样需要精细力控的任务。


图片


图:使用该3F柔性手进行写书法实验及其力反馈各项指标图

在机器人与物理世界进行交互时,力的感知至关重要。它不仅是完成插拔、打磨等接触式任务(contact-rich tasks)的基础,也是高级人机交互与物理推理的关键。然而,传统的高精度力/扭矩(F/T)传感器价格昂贵、笨重且易因撞击损坏,而集成式的指尖触觉传感器则面临着布线复杂、易磨损和仅能提供局部信息等问题。

近年来,视触觉传感技术为解决这一难题提供了新思路,即利用视觉信号来推断触觉信息。但许多方案依赖于在传感器内部嵌入标记点(如GelSight),或需要定制化的传感皮肤。有没有一种更简洁、更低成本的实现路径?



耶鲁大学的研究团队给出了一个极具吸引力的答案:Forces for Free。其核心思想是,对于一个已经配备了柔性手爪和腕部摄像头的机器人系统,对于外界力的感知能力可以通过软件算法“免费”获得,无需增加任何额外传感硬件。


图片


图:该系统的核心在于利用已有的摄像头和柔性手爪,通过算法解锁力感知能力,无需额外添置昂贵的F/T传感器(如图中箭头所示,F/T传感器仅用于训练和验证)。这也是“3F”中“Free”的核心。

物理媒介:为“被看见”而优化的F3柔性手

实现视觉力感知的先决条件,是拥有一个在受力时能产生稳定、可观测形变的物理媒介。为此,研究团队并没有随意选择一款柔性手,而是在耶鲁大学经典的开源T42手爪基础上,进行了深度优化,设计出F3 (Forces-for-Free) Gripper。优化目标也非常明确:提升基于视觉的力估算信噪比,可以从两个角度来实现:

1.最大化运动学可操纵性 (Kinematic Manipulability)传统柔性手在某些姿态下可能接近“奇异构型”(singular configuration),此时即便利度发生很大变化,其外观形态也几乎不变,导致力无法被识别。研究团队通过优化手指的连杆长度比和静止角度,使其在工作区间内远离奇异点,确保任何方向的力都能引起足够大的视觉形变。这项优化基于对运动学矩阵的分析,旨在最大化这一可操纵性度量。

2.最小化摩擦与迟滞 (Friction and Hysteresis)缆绳驱动的柔性手普遍存在摩擦和迟滞效应,这是导致“部分可观察性”(partial observability,即相同的手指形态可能对应不同力值)的根本原因。F3手爪将所有缆绳路径上的金属销钉替换为微型滚珠轴承,并优化布线以减少接触角,从而显著降低了内部摩擦力(从约4.0N降至0.6N),为更精确的力估算奠定了物理基础。


图片


图:F3手爪的设计优化。()相较于T42原型,F3采用了等长连杆和滚珠轴承以提升可操纵性并降低摩擦。 ()运动学可操纵性分析表明,连杆等长且关节角为90°时(黑色连杆所示位置),形变响应最佳。

计算核心:具备时序记忆与视觉焦点的估算器

有了高质量的物理媒介,接下来的挑战便是如何从图像序列中解码出精确的力信息。耶鲁大学的研究团队为此构建了一个精巧的深度学习估算器。

为了应对“部分可观察性”,该团队的解决方案是:引入时间记忆。为了解决由残余摩擦和迟滞效应带来的模糊性,该模型不处理单帧图像,而是输入一段包含近期运动历史的图像序列(如20帧,采样频率1Hz)。模型采用CNN-Transformer架构,其中CNN负责提取每帧图像的空间特征,而Transformer则捕捉这些特征在时间维度上的内在关联。

这种对时空信息的综合处理,让模型能够根据历史运动趋势来推断当前最可能的力状态,有效缓解了“同形不同力”的问题。消融实验证明,20帧的记忆长度能达到最佳性能。

为了应对视觉干扰,该团队采用视觉基础模型加持的方案:真实场景下的背景和被抓物会严重干扰识别。研究团队利用了视觉基础模型SAM (Segment Anything Model),仅通过少量标注数据进行微调,便能稳健地将手爪从复杂的视觉环境中分割出来。这相当于为估算器戴上了一副“滤镜”,使其能完全专注于手爪本身的形变,实现了对背景和物体变化的鲁棒性。此外,通过在训练中引入随机遮挡的数据增强,模型还能抵抗真实世界中常见的部分遮挡情况。


图片


图:估算器神经网络架构概览。图像序列首先由SAM进行分割以消除视觉干扰,随后由共享的CNN提取特征,最后通过Transformer网络处理时序信息,输出最终的力预测值。

实验验证:从0.2N的精度到闭环动态控制

该系统的有效性在一系列严苛的实验中得到了验证:在对新物体的静态力预测任务中,估算误差在0.2N0.4N之间。这一预测精度远高于先前相关工作报告的约1.6N的误差,展示了其卓越的性能。

对于动态闭环控制的实验设计,该估算器被成功置于控制环路中,完成了三项复杂的动态任务:

1.孔中插销:通过感知接触力,引导机器人完成探测、对准和插入的系列动作。


图片


2.曲面擦拭:维持恒定的法向力(1N),在不平整的表面上进行擦拭。


图片


3.书法写作:通过实时调整下压力,控制毛笔笔画的粗细,完成汉字书写。


图片


图:估算器在闭环动态任务中的出色表现。无论是精密的装配(上)、力控的表面操作(中),还是需要细腻力度变化的书法(下),系统均能提供准确的力反馈。

在这些任务中,系统均表现出高精度和鲁棒性,平均力误差甚至低至0.15N左右。这是一个非常惊人的数字,这表明该系统在没有额外传感器的辅助下,已经能几乎实现完成这些需要精细力控的任务。


图片


耶鲁大学的这项研究,为低成本机器人力感知提供了一个优雅且实用的解决方案。它不仅是一个巧妙的工程实现,更提出了一种富有潜力的“Forces for Free”新范式,证明了在不增加额外硬件的前提下,仅通过算法和对现有组件(柔性手)的优化,即可解锁高质量的力感知能力,重新定义了视触觉传感的成本效益边界。这也是“Free”的核心所在;此外在系统完整性方面,提供了从硬件优化(F3手爪)到算法设计(时序模型与SAM)再到实验验证的一整套完整、开源的解决方案,极大地降低了其他研究者的使用门槛。

尽管目前该系统主要处理二维力,且响应速度(10Hz)尚不及商业F/T传感器,不适用于碰撞检测等高速场景,但它为大量接触式操作任务提供了足够精确、鲁棒且几乎“免费”的力反馈。

未来,该范式有望扩展至三维力/力矩估算、多指灵巧手,并通过多视角相机来解决更复杂的遮挡问题。这项工作无疑将推动先进力控技术在更广泛的机器人平台(尤其是低成本平台)上的普及与应用。

资料链接:

论文原文:`https://www.science.org/doi/10.1126/scirobotics.adq5046`

开源硬件、代码与数据详见论文末尾“Data and materials availability”部分


文章来源:CAAI认知系统与信息处理专委会