所有文章 > 正文

2019年CVPR最佳学生论文研究:让机器人实现视觉-语言导航的新方法

作者: Jansfer

时间: 2019-06-23 16:30

作为计算机视觉领域内最负盛名的学术会议,今年的 CVPR 已于当地时间 6 月 16 日在美国加州长滩开幕。18日,CVPR 2019 颁发了今年的所有奖项。

图|2019年CVPR最佳学生论文奖获得者团队(来源:Matthew Turk)

据报道,今年大会共有9200名人工智能研究人员提交了5165篇研究论文,其中接受了1300篇。最佳学生论文奖项被授予了加州大学圣巴巴拉分校计算机科学博士生王鑫(音译)。他主题为《用于视觉-语言导航的增强型跨模态匹配和自监督模仿学习》“Reinforced Cross-Modal Matching and Self-Supervised Imitation Learning for Vision-Language Navigation”的学生论文在其类别是第31届IEEE/CVF计算机视觉和模式识别会议(CVPR)的第一名。

加州大学圣巴巴拉分校工程学院计算机科学系助理教授William Wang说:“2017年,王鑫作为一名博士生开始与我合作研究语言和视觉相关的课题。自2018年3月以来,我们一直在研究视觉-语言导航问题,即在没有地图的情况下,如何使用口头指令教机器人瞄准目标?”

机器人可以根据普通语言指令、视觉导航下执行任务,这听起来像科幻小说,但它比你想象的更接近现实。

王鑫说:“我研究视觉和语言的交集已经有一段时间了,我相信AI的一大进步是让机器人与可见的物理世界产生互动,尤其是通过自然语言。”

王鑫继续说:“视觉-语言导航可以实现许多实际应用,例如,家用机器人。我们每个人,尤其是残疾人,都可以让机器人完成一些特定的任务,比如‘去厨房给我拿杯水来’。视觉-语言导航是理解可见场景和自然语言指令的一项基本任务,也是完成高级工作的一项物理操作。”

在实时场景中导航通过自然语言提示而完成任务对人类来说很简单自然,但对于机器人来说则需要一个灵活而优雅的框架,在这个框架中,机器人可以学习将获取的数据与接收的指令含义联系起来。这是一个迭代的过程,需要强化、反馈和适应。王鑫的导师说:“王鑫的工作针对改进视觉-语言导航算法的泛化引入了几个创新的想法。”

William Wang说:“视觉-语言研究的这一突破将使机器人能够更好地帮助人类完成许多日常及特殊事务,包括家庭清洁和维护、物品寻找和检索、远程控制、帮助盲人及救灾等。它的使用潜力可以影响数百万的人,它可以改善人类的生活质量,把人类从枯燥的家务劳动中解放出来,这样人类就有时间进行创造性活动。”

2019年CVPR最佳学生论文涉及的研究是建立与博士生Wenhan Xiong在UCSB合作研究基于模型和模范自由强化学习的基础之上,Wenhan Xiong 2018年夏天在微软研究院(MSR)实习,导师是Qiuyuan Huang,Asli Celikyilmaz,Jianfeng Gao 以及Lei Zhang。

CVPR最佳论文委员会表示,“视觉导航是计算机视觉的一个重要领域,该论文在视觉语言导航方面取得了进展。在原来的研究基础上,该论文展示了基于跨模态设置的自模仿学习这一令人兴奋的结果。”

加州大学工程学院院长Rod Alferness说:“我们要祝贺王鑫和William Wang获得这一殊荣,他们在计算机科学的前沿领域取得了卓越的成就。我们很高兴他们是UCSB的一部分。”

王鑫说:“我很荣幸获得这个奖项。我要衷心感谢我的导师William和Yuan-Fang,以及MSR的合作者们,感谢他们的大力支持和宝贵指导。未来,我希望越来越多的研究人员能够朝着这个令人兴奋和必要的研究方向努力,朝着更加实用和互动的机器人方向努力,为人类架起视觉和语言的桥梁。我一定会致力于实现它。”

参考:Phys.org

[关于转载]:本文为“AMiner”官网文章。转载本文请联系原作者获取授权,转载仅限全文转载并保留文章标题及内容,不得删改、添加内容绕开原创保护,且文章开头必须注明:转自“AMiner”官网。谢谢您的合作。

二维码 扫码微信阅读
推荐阅读 更多