所有文章 > 正文

AI通过“看”视频学习导航

作者: Jansfer

时间: 2019-06-15 22:21

加州大学伯克利分校(UC Berkeley)和脸书AI研究中心的研究人员最近提出了一种新方法,可以增强机器学习模型的导航技能。该方法预先发表在arXiv上的一篇论文中,它可以使AI模型在处理一系列视频后,获得可视化运动的导航子程序。

正如研究人员在文中所写:“每天早晨,当你想要去厨房喝杯咖啡,你会想到先穿过走廊,然后左拐,再进入右边的房间。完成这些动作并不需要精确计算肌肉扭矩,而是在一种高度抽象的思维中计划好的,然后将一些简单而可重复的可视化运动组合在一起。”

这些“可视化运动子程序”和“抽象层次”是人类思维的产物,并最终帮助人类快速适应身处的环境。将这种相似的机制应用到计算机系统中应当会显著增强其导航和规划的能力。

到目前为止,针对这些抽象层次的AI模型训练方法分为两大类:手动设计方法(即经典规划)和强化学习技术。然而,这两种方法都有很大的局限性。经典的规划策略往往是次优的,而强化学习方法的效果可能并不稳定,而且开发和训练的成本较高。

经过不断的研究,加州大学伯克利分校和脸书的科研人员提出了另一种范例,让AI模型分析被动的第一人称影像数据(即视频),然后形成抽象层次。这些视频标记了AI系统动作,并最终帮助机器人在身处的环境中进行导航。

研究人员在文中进行了解释:“我们使用一种针对少量交互数据训练的逆模型,使被动的第一人称视频和AI系统动作进行伪标记。让AI学习以潜在目的为导向的策略,观察相应的图片来预测伪动作,最终从这些伪标记的视频中获得可视化运动子程序。”

研究人员对该方法进行了评估,发现它可以显著增强系统的导航能力。并且该方法在测试中也大获成功,AI通过观察被动的第一人称视频,顺利获得了多种可视化运动子程序。

研究人员还写道:“我们演示了可视化运动子程序的实用性,可以将其应用于探索工作,或是作为在分层RL框架中实现点目标和语义目标的子策略。我们还会在实际生活中展现该子程序的作用,将其装备在真实的机器人中。”

针对性能表征,上述研究人员提出的方法在所有的评估指标上都取得了显著的成绩。此外,研究还发现,它的表现优于目前在更大交互样本上训练出来的学习技术,开辟出一条使AI能更加全面地适应环境的发展道路。

另一方面,新方法虽然经过45000次环境交互后可获得抽象层次,但交互次数提升至一千万次后,其性能与当前技术相比并不令人满意。然而对于避开环境中障碍物的基线功能,该研究方法还是优于手动设计的方式。

研究人员称:“第一人称视频的成功学习使得AI系统能够执行连贯的动作,即使它之前只执行过一些随机动作。而且,AI系统还学会在导航中对前进动作进行选择,形成避开障碍物的意识,从而实现了更远的行进距离和较低的碰撞率。”

这项研究介绍了一种可行而高效的AI系统导航子程序训练方法,在未来,该方法可以为拥有更先进的规划和导航技能的机器人的发展提供指导。

img_5780.jpg

图|通过输入图片来学习子程序,完成连贯的动作(例如左拐进入房间)(来源:Kumar,Gupta&Malik)

参考:techxplore.com

[关于转载]:本文为“AMiner”官网文章。转载本文请联系原作者获取授权,转载仅限全文转载并保留文章标题及内容,不得删改、添加内容绕开原创保护,且文章开头必须注明:转自“AMiner”官网。谢谢您的合作。

二维码 扫码微信阅读
推荐阅读 更多