所有文章 > 正文

OpenAI用数亿次“捉迷藏”游戏,发现AI新潜能

作者: Jansfer

时间: 2019-09-23 11:25

研究人员发现,AI在玩一个简单的捉迷藏游戏时,探索出了对更加复杂工具的使用。甚至,AI建立了“六种策略与对抗策略”。

aiagentsshow_wps图片.jpg

据报道,研究人员为他们的AI设计了一场高难度的捉迷藏游戏,并取得了出乎意料的结果。在这场游戏中,存在着墙体和移动的箱子,其中藏有躲藏者和搜寻者,随着游戏的进行,AI展现出了惊人的表现。

研究人员在博客中写道:“我们观察到,AI在玩一个简单的捉迷藏游戏时,探索出了对更加复杂工具的使用。”实际上,AI建立了“六种策略与对抗策略”,针对一些策略,场景是否支持,我们并不知道。

在本周早些时候发表的一篇新论文中,研究小组公布了结果。该论文“多智能体自动课程中的紧急工具使用”有7位作者,其中6位作者列出了OpenAI,还有一位作者列出了Google Brain。

作者们阐述了他们所面临的挑战。“在人工智能领域,创造出能够解决各种与人相关的复杂任务的人工智能机器人,一直是一个长期的挑战。”

研究小组表示,“我们发现,AI创建了一个自我监督的自动课程,得到了多轮不同的紧急策略,其中许多需要复杂的工具使用和协作。”

通过捉迷藏测试,(1)搜寻者学会了追赶躲藏者,而躲藏者学会了逃避搜寻者(2)躲藏者还学会了对基本的工具使用,即用箱子和墙体来建造堡垒。(3)搜寻者能够使用坡道进入躲藏者的藏身处(4)躲藏者知道将坡道搬到远离堡垒的地方,并完成锁定(5)搜寻者知道他们可以从锁定的坡道跳到箱子上,沿着箱子到达躲藏者的藏匿点(6)躲藏者学会了利用未使用的盒子来建造他们的堡垒。

这六种策略,都是在“捉迷藏”中相互训练的AI之间产生的,每一种新策略都给AI带来了一种从未存在过的压力,促使它们进入下一个阶段,而没有任何直接的命令要求AI与物体进行交互。这些策略是多主体竞争和动态捉迷藏共同诱导的“自课程”结果。

作者们在博客中表示,他们发现“AI常常以一种意想不到的方式利用人们所构建的环境或物理引擎。”

上述情况是一种“自我监督的紧急复杂性”。这进一步表明,多智能体的协同适应有朝一日可能会产生极其复杂且智能的行为。而且,作者在他们的论文中也有类似的表述,“在开放的物理基础环境中诱导自动课程,最终能够使AI获得无限量的人类技能。”

《新科学家》杂志的Douglas Heaven的叙述方式着实引起了读者极大的兴趣:

“一开始,躲藏者只是逃跑了。但是,他们很快发现,要想躲避搜索者,最快的方法就是在环境中寻找物体来隐藏自己,即把物体当作一种工具来使用。例如,躲藏者认识到盒子可以用来堵住门口,建造简单的藏身之处。另一方面,搜寻者认识到他们可以移动一个斜坡,并借助斜坡翻过墙壁。而且,这些机器人发现,团队协作——互相传递物品或合作寻找藏身之处——是取胜的最佳方式。”

这是一个意义重大的课题。《麻省理工学院技术评论》(MIT Technology Review)对他们的工作进行了研究,发现AI在玩了近5亿次捉迷藏游戏后学会了使用工具。经过数亿回合的捉迷藏游戏,两支相互对抗的AI机器人团队创造出了复杂的捉迷藏策略。

Karen Hao记录了AI机器人在打了几轮游戏之后都学到了什么技能:“在2500万场回合之后,游戏变得更加复杂。躲藏者学会了移动和固定箱子等环境中的障碍物,在自己周围建造堡垒,使搜寻者无法看到它们。”

再经过几百万场回合后:搜寻者发现了一个反策略,他们学会了移动躲藏者堡垒旁边的斜坡,并用它爬过墙。更多的回合之后,躲藏者们明白了在建造堡垒之前先把坡道锁好。

然而,另外两种策略出现在3.8亿场比赛之后。搜寻者发现了一种策略,借助一个锁定的斜坡爬到一个锁住的盒子上,然后在盒子上面进行“冲浪”,一路直达堡垒的墙壁,从而进入躲藏者的堡垒。在最后阶段,躲藏者们再次学会了在建造堡垒之前把所有的坡道和箱子锁好。

Hao引用了论文作者之一Bowen Baker的话:“我们没有告诉躲藏者或搜寻者应该靠近一个盒子或者与它互动……但通过多智能体竞争,他们为彼此创造了新的任务,使得另一个团队不得不适应新的策略。”

这一点尤其引人深思,Baker表示,他们既没有告诉躲藏者,也没有告诉搜寻者,靠近盒子并与其进行互动。

Devin Coldewey曾在TechCrunch上说过:“这项研究成功地研究了机器学习智能体学习同现实世界相关的复杂技术的可能性,并且该学习过程是自发进行的。”

Coldewey对整体工作进行了总结。“正如该论文的作者所解释的,这就是我们人类产生的方式。”

“地球上庞大的复杂性和多样性是在自然选择的引导下,由生物体之间的共同进化和相互竞争而形成的。当一个新的优化策略或突变出现时,它会影响食物链中的其他生物,改变自然界的隐性任务,产生新的适应压力。这些不断升级的军备竞赛创造了隐性的自我课程,从而,相互竞争的生物不断地为彼此制定新的任务。”

参考:https://techxplore.com/news/2019-09-ai-agents-behavior-game.html

[关于转载]:本文为“AMiner”官网文章。转载本文请联系原作者获取授权,转载仅限全文转载并保留文章标题及内容,不得删改、添加内容绕开原创保护,且文章开头必须注明:转自“AMiner”官网。谢谢您的合作。

二维码 扫码微信阅读
推荐阅读 更多