Facebook AI Research的一个团队,试图使用两个可以从库中选择正确步骤的Sawyer机械臂来实现打开瓶子的任务。在每个时间步长上,他们的智能体都必须决定使用什么技能,以及要使用哪些论据来达成目标。
例如,施加力的位置、力的大小、要移动的目标姿势等等。

尽管涉及复杂性,不过该团队表示他们的方法提高了学习效率,因此仅需几个小时的训练,机械臂就可以发现操纵技能。
他们认为对于许多任务,学习过程可以分为两个部分,分别是学习任务模式和学习为不同技能选择适当参数化的策略。
这种方法可以加快学习速度,部分原因是可以使用来自给定任务不同版本的数据来提高共享技能。而且,他们说这允许在相关任务之间转移学习到的模式。
该论文的共同作者详细解释称,假设我们已经学会了一种很好的方案,在一个模拟环境中我们可以访问对象的姿势、几何信息等,以及更多内容,然后在这个模拟环境中举起个长条,那么我们就可以将该模式重新用于相关任务,例如仅从原始摄像机观察结果中拾取现实世界中的托盘。
即使状态空间和*佳参数化(例如,抓握姿势)都存在显著差异。由于该模式是固定的,因此针对该任务栏提取任务的策略学习将非常有效,因为它仅需要学习每种技能的(与观察相关的)参数。

研究人员为上述两个机械臂提供了一个通用的技能库,例如扭转、提升和伸展,他们必须将其应用于涉及不同对象、几何形状和初始姿势的多个横向提升、拾取、打开和旋转任务。
在MuJoCo(模拟环境)中,通过使用低维输入数据进行训练,例如几何和本体感受特征(关节位置,关节速度,末端执行器姿势)等,然后在模拟和现实世界中都转换为可视输入。
在实验过程中,Sawyer手臂(配备摄像头,并由Facebook的PyRobot开源机器人平台控制)的任务是操纵包括面杖、足球、玻璃罐和T型扳手在内的9个常用物品。
完成任何任务都需要两个相互配合的爪子。尽管必须从原始视觉图像中学习,但他们说系统在大约4到10个小时的训练中学会了使用2000种技能来操纵大多数项目,并且成功率超过90%。
论文的共同作者写道:“我们已经研究了如何利用与状态无关的技能序列来大大提高无模型强化学习的样本效率。此外,我们已经通过实验表明,将在模拟环境中学习到的技能序列,转移到现实世界中的任务,使我们能够非常有效地解决图像中的稀疏奖励问题,从而使训练真正的机器人执行诸如双手操作之类的复杂技能变得可行。”
来源:网络
更多资讯:库卡机器人