所有文章 > 正文

谷歌AI实现新突破,通过OPC方法选择最优机器学习模型

作者: Jansfer

时间: 2019-06-23 14:58

谷歌公司的研究人员设计了一种能够预测出哪种机器学习模型会产生最好结果的人工智能方法。

在最新一期发表的文章“Off-Policy Evaluation via Off-Policy Classification”(通过Off-Policy分类进行Off-Policy评估)和博客上,谷歌的人工智能研究团队提出了他们称之为Off-Policy分类、或者OPC的方法,这种方法能够将评估看作一个分类问题来处理,进而评估出人工智能驱动助手的性能。

该团队指出他们的方法,一个强化学习的变体,通过使用奖励机制使软件策略更接近目标,使用包括基于视觉的自动捕捉的图像输入和缩放来工作。“完全off-policy强化学习是一种变体,这种变体助手完全从旧数据学习经验,这很有吸引力,因为它不需要实际的机器人就可以完成模型迭代,”谷歌机器人学软件工程师Alex Irpan写道,“使用完全off-policy RL的方法,你可以从一个以前的助手收集好的同一个固定数据库中训练几个模型,然后选择其中最好的一个。”

实现OPC方法比听起来更具有挑战性一些。正如Irpan和其他合作者说的那样,off-policy强化学习法使人工智能模型通过一个机器人来训练,而不是直接评估。此外,他们指出,真实评价通常很低效,因此需要大量的评估模型。

他们的解决方案(OPC),假设任务在状态改变时几乎不具有随机性,并假设助手在实验结束时只有成功和失败两种可能。第二个假设的二进制本质使得每一步行动被分配两个分类标签(成功的是“有效的”而失败的是“灾难性的”)。

图|左侧是基线法,右侧是SoftOPC法(来源:Google)

OPC还依赖所谓的Q函数(从Q学习算法中得到的)来估计行动的未来总回报。助手选择有最大预期回报的行动,这些行动的的表现通过被认定为有效的频率来评估(取决于Q函数分类活动是有效的还是灾难性的的正确程度)。分类的精确性是off-policy评价方法的优势。

该团队使用完全off-policy强化学习法仿真模拟训练了几种机器学习策略,然后使用从先前的真实数据表获得的off-policy分数评估它们。在一个机器人抓取任务中,他们报告说,一个OPC变体 ——SoftOPC——预测最后的成功率时表现最好。当给出15个具有不同的稳健性的模型时(7个是纯粹的在进行模拟训练),SoftOPC法生成的分数与真正的抓取成功率基本一致,并且“明显”比基线方法更可靠。

在未来的工作中,研究人员打算进一步探索有“嘈杂”和非动态的任务。Irpan写道:“我们认为目前的结果很可靠,足以应用到许多真实世界的RL问题上。"

参考:Venturebeat

[关于转载]:本文为“AMiner”官网文章。转载本文请联系原作者获取授权,转载仅限全文转载并保留文章标题及内容,不得删改、添加内容绕开原创保护,且文章开头必须注明:转自“AMiner”官网。谢谢您的合作。

二维码 扫码微信阅读
推荐阅读 更多