将训练狗的方法用于机器人学习新技能

2020-11-02

约翰霍普金斯大学的计算机科学家采用一种通常用于教狗蹲下和坐下的训练技巧用于机器人上，展示了一种如何自学几种新技巧的机器人，其中包括堆叠方块。通过这种方法，机器人可以在几天内学习通常需要一个月时间的技术。

通过使用正强化，这是任何使用过的对待改变狗行为的人都熟悉的方法，团队极大地提高了机器人的技能，并且很快地完成了训练，使训练实际工作的机器人成为一个更可行的企业。这些发现新发表在名为“ Good Robot！”的论文中。

“这里的问题是我们如何让机器人学习技能？” 主要作者安德鲁·洪特（Andrew Hundt）说。在约翰·霍普金斯大学计算互动与机器人实验室工作的学生。“我有狗，所以我知道奖励的工作，这就是我设计学习算法的灵感。”

与天生具有高度直觉的大脑的人和动物不同，计算机是空白板，必须从头开始学习一切。但是，真正的学习通常是通过反复试验来完成的，机器人专家仍在研究如何从错误中有效学习。

该团队通过设计一种奖励系统来实现这一目标，该奖励系统可以像对待狗的工作方式一样为机器人工作。狗可能会因为做得好的工作而得到饼干，而机器人则获得了数字积分。

洪特回忆说，他曾经教过他的小狗叫利亚（Leah）命令“离开它”，这样它就可以无视步行中的松鼠。他使用两种类型的零食，一种是普通的教练零食，另一种是更好的东西，例如奶酪。当莉亚兴奋而无所事事时，她一无所有。但是当她冷静下来并移开视线时，她得到了好东西。“那时候我给了她奶酪，然后说，'离开！好呀！'”

同样，要堆积块，发现机器人需要学习如何专注于建设性行动。当机器人探索积木时，它很快了解到正确的堆叠行为可以赚取高分，而错误的行为则不能赚到高分。伸出手，但不理解障碍？没有分数敲一堆？绝对没有分数。通过将最后一个区块放在四个区块的堆栈之上，机器人获得了最大的收益。

训练策略不仅有效，而且花了几天的时间来告诉机器人过去需要数周的时间。通过首先训练类似于视频游戏的模拟机器人，然后使用UR运行测试，该团队能够减少练习时间。

亨特说：“机器人想要更高的分数。” “它可以迅速学习正确的行为以获得最佳回报。实际上，过去机器人需要花一个月的练习才能达到100％的准确性。我们能够在两天内做到这一点。”

正强化不仅可以帮助机器人自学积木，而且通过点系统，机器人可以很快学会其他几个任务，甚至包括如何玩模拟的导航游戏。在所有情况下都可以从错误中学习，这对于设计一种可以适应新环境的机器人至关重要。

洪特说：“起初，机器人不知道自己在做什么，但是每次练习都会越来越好。它永远不会放弃，并且会不断尝试堆叠，并且能够100％地完成任务。”

该团队认为，这些发现可以帮助训练家用机器人去洗衣服和洗碗，这些任务在公开市场上很流行，并且可以帮助老年人独立生活。它还可以帮助设计改进的自动驾驶汽车。

哈格说：“我们的目标是最终开发出可以在现实世界中完成复杂任务的机器人，例如产品组装，照顾老人和手术。” “我们目前不知道如何编程这样的任务-世界太复杂了。但是这样的工作向我们表明，机器人可以学习如何以安全有效的方式完成此类现实任务的想法是有希望的方式。”

看了文中的训练方法是不是有所心动，约翰霍普金斯大学使用的UR协作机器人平台应用面相当广泛，系统的稳定性极强。

京天机器人公司近期隆重推出UR机器人视觉实训平台青龙2号，具体参数配置见下图彩页，欢迎大家垂询。

推荐文章