所有文章 > 正文

斯坦福大学革新了机器人的自主奖励系统

作者: Jansfer

时间: 2019-06-26 17:10

在一场赛车游戏中,一辆汽车收到优化速度的指令,它会调节油门,以旋转小圈的方式前进,这是赛车收到指令后即兴执行的,因为指令中没有告知汽车需要直行。这样的例子发生在游戏中会更有趣,但在生活中就会引发麻烦,这一现象促使斯坦福大学的Dorsa Sadigh团队创建更好的机器人自主奖励系统。

该团队将机器人设定目标的两种方法结合到一起,包括人类向机器人演示需要做什么,以及用户的行为偏好。演示活动虽然可以提供丰富的信息,但会带来许多无关数据,偏好调查的信息量虽然少但更准确。Sadigh团队充分利用这两个方面来更好地了解人类偏好的奖励功能。这一方案在模拟和实际实验中都比单独的两个部分表现更好。这一研究成果发表在6月24日 Robotics: Science and Systems conference上。

在之前的工作中,Sadigh团队只专注于偏好调查。这些调查是通过人们比较场景来获取信息,如在自动驾驶汽车的两个轨迹中选择。这种方法虽然有效但创建指令很慢,对于像汽车这样的复杂系统来说,需要提高。为了加快获取信息的速度,该团队发展出一种同时产生多个问题的方法,可以由一个人快速地连续回答或分发给几个人,这一更新使过程加快了15—50倍。

新的系统从一个人向机器人演示一种行为开始,这可以给自主机器人提供更多信息,但机器人往往难以确定演示的哪些部分更重要。该项目的一位研究生Erdem Biyik表示,不能仅依靠演示来获取所有信息,因为有研究表明,人们希望自动驾驶汽车比他们自己开得更稳。

这就是偏好调查的切入点,给机器人一种询问的方式,如用户是否喜欢它的手臂向地面低移或向天花板上移动。在这项研究中,研究小组使用了较慢的单问题法,他们计划在以后的工作中整合多问题调查,同时针对基于偏好学习容易发生的问题之间的相似或无关,未来研究人员也希望可以得到优化,更加符合受访者的思考习惯。

图片来自论文

研究小组发现,将演示和调查偏好结合起来比仅仅调查偏好效率更高,而且与单独的演示相比,大约80%的人更喜欢机器人在使用组合系统进行训练时的行为。Sadigh表示这一发现可以进一步了解人们对机器人的需求或期望,使得人们可以更容易、更高效地指导机器人。

该项目的另一位研究生Andy Palan表示,未来会出现更多的自主系统,它们需要对好和坏有概念,虽然目前还不完全清楚什么是实现奖励功能的正确途径,但可以通过人类的投入来解决复杂的情况。能够为自主系统设计奖励功能是一个很重要的问题,但在学术界还没有得到应有的重视。

该团队希望可以开发不同的奖励系统,这将适用于不同场景,例如:在交通拥堵时汽车开得慢一点,在通畅时开得可以快一些。这项研究获得了丰田研究所和未来生活研究所的资助。

参考:https://www.sciencedaily.com/releases/2019/06/190624124457.html

[关于转载]:本文为“AMiner”官网文章。转载本文请联系原作者获取授权,转载仅限全文转载并保留文章标题及内容,不得删改、添加内容绕开原创保护,且文章开头必须注明:转自“AMiner”官网。谢谢您的合作。

二维码 扫码微信阅读
推荐阅读 更多