改进决策速度的新模型
最新的机器人模型让机器人操作速度提高了14%,相较于原先的Robotics Transformer(RT),其速度有了显著提升,而且没有牺牲质量。准确度上升了10.6%。同时,谷歌DeepMind也发布了最新的具身智能成果。
这三项成果包括:
谷歌解决了两个挑战:
新框架主要针对这两个领域的改进,建立在谷歌的基础机器人模型Robotics Transformer(RT)之上。
1. 帮助机器人泛化的RT-Trajectory
对于机器人来说,人类简单的任务不容易理解。但是通过提供视觉提示,谷歌的RT-Trajectory模型让机器人更好地理解任务。在训练中,机器人接收2D轨迹增强的数据,这些轨迹以RGB图像形式呈现,并包括路线和关键点,为机器人提供实用的提示。使用RT-Trajectory模型,机器人在面对未见过的任务时的成功率提高了一倍(从29%到63%)。
该模型能够以多种方式创建轨迹,包括观看人类演示、接受手绘草图,以及通过视觉语言模型(VLM)生成。
2. 提高决策速度的SARA-RT
基于Transformer架构的RT模型,尽管功能强大,但严重依赖具有二次复杂度的注意力模块。为了提高速度,谷歌开发了SARA-RT,这种模型微调方法将二次复杂度转换为线性复杂度,保持了处理质量。应用于具有数十亿参数的RT-2模型时,SARA-RT可以在各种任务上实现更快的操作速度和更高的准确率。
SARA-RT为加速Transformer提供了一种通用方法,无需昂贵的预训练,具有良好的推广性。
3. 机器人数据收集系统AutoRT
谷歌的AutoRT系统结合了大模型(包括LLM和VLM)与机器人控制模型(RT),不断指导机器人执行各种任务,产生并收集数据。这个系统通过摄像头和VLM模型描述环境,并利用LLM生成多项任务。在任务筛选过程中,机器人会判断哪些可以独立完成、哪些需要人类远程控制以及哪些无法完成。
例如,类似"打开薯片袋"这样的任务需要两只机械臂,而默认只有一只机械臂,所以机器人无法完成这类任务。
这些创新成果让机器人在面对新任务和提高决策速度方面取得了重大进步,为真正可进入现实世界的机器人铺平了道路。