所有文章 > 正文

DeepMind公司升级导航助手,结合空中鸟瞰图导航陌生区域

作者: Jansfer

时间: 2019-06-21 11:41

街道导航AI能够遍历以前没见过的社区,提供足够的训练数据吗?这是谷歌母公司Alphabet’s DeepMind的科学家们在预印本服务器Arxiv.org上发表的最新一期文章“Cross-View Policy Learning for Street Navigation”(用于街道导航的跨视图策略研究)中研究的内容。

图|来源:Kirill_Savenko/Getty Images

论文链接:https://arxiv.org/pdf/1906.05930.pdf

在这篇文章中,他们描述了通过自上而下的鸟瞰视图信息,来改变通过地面视图数据库训练的AI策略,进而实现定位城市中的一个目标位置的方法,他们说这种方法会有更加广泛的应用。论文的合著者说,这一工作的灵感来源于他们发现人们可以通过看地图快速的适应一座新的城市。

“在陌生的环境中进行视觉观察导航的能力是智能助手的一个核心组件,也是一项持续的挑战。Goal-driven街道导航助手到目前为止还不能在没有进行过多次训练的陌生环境导航,依靠模拟并不是一种可取的解决方案,”他们写道。“我们的核心理念是将地面视图与鸟瞰图结合,然后研究一种关联方法实现两种视图的转化。”

研究人员首先收集区域航空地图,并根据相应的地理坐标搭配街道视图。接下来,他们开始了一个由三部分组成的转换学习任务, 从训练源区域数据开始,使用目标区域的鸟瞰图进行观察,最后使用地面视图实现目标区域的转化。

这个团队的机器学习系统由三个模块组成, 包括一个卷积模块来负责视觉感知, 一个长的短期记忆(LSTM)模块来捕捉拍摄地点的特性, 和一个政策复发性神经模块来产生一个分布。它被部署在StreetAir上, 这是一个基于StreetLearn构建的多视点的户外街道环境, 是一个来自于谷歌街景和谷歌地图的交互式第一人称的全景街景照片。在StreetAir 和StreetLearn中,覆盖了纽约(纽约市中心和纽约中城)和匹兹堡(阿勒格尼和卡内基梅隆大学的校园)的空中图片都被拍摄下来,以至于在每个纬度和经度坐标上都会返回一个84 x 84的空中图像,这与以目标点为中心的地面视图图像一样大。

这一人工智能系统的任务是自身定位和就已知经纬度坐标的目标地点给出街区全景图像。一侧覆盖地区为2 - 5公里的全景照片之间有大约10米的间隔, AI导航助手允许每次进行下面5个动作中的1个: 前进, 左转或右转22.5度, 或左转或右转67.5度。到达目标地点100 - 200米范围内时, 这些助手的性能会提高来实现快速和准确的遍历。

在实验中, 这些使用航拍图像适应新环境的导航助手,在1亿步中节省了190步,在2亿步中节省了280步,明显高于只使用地面视图的导航助手(在1亿步中节省50步,在2亿步中节省200步)。研究人员说,这表明他们的方法显著提高了导航助手获得目标城市地区的信息的能力。

”我们的研究结果表明,该方法在导航未见过的区域方面有较高的零射击优势(不需要使用目标区域的地面视图环境来进行训练转换)和相比单一视图导航助手更好的整体性能(在转换期间不断训练) ” 该研究小组写道。

参考:venturebeat

[关于转载]:本文为“AMiner”官网文章。转载本文请联系原作者获取授权,转载仅限全文转载并保留文章标题及内容,不得删改、添加内容绕开原创保护,且文章开头必须注明:转自“AMiner”官网。谢谢您的合作。

二维码 扫码微信阅读
推荐阅读 更多