所有文章 > 正文

【CVPR 2019论文】基于场景图的可解释显示视觉推理

作者: 史佳欣

时间: 2019-06-17 11:50

视觉问答(Visual Question Answering)是近年来很受关注的一个跨模态任务,它的输入是一张图片和一个与图片有关的自然语言问题(如“桌上放着什么东西”),目标是让模型自动回答该问题。

论文原文:Explainable and Explicit Visual Reasoning over Scene Graphs. CVPR2019

视觉推理(Visual Reasoning)与视觉问答的形式类似,但输入的问题更难,且会涉及到物体之间的多跳关系(如“桌子旁边的椅子上的盘子是什么颜色”),这就要求模型具有推理能力。视觉推理任务最早由李飞飞等人在2017 年提出,他们提出的 CLEVR [1]数据集是目前使用最多的。

神经模块网络(Neural Module Networks,NMN)[2]是解决视觉推理任务的一类有效方法。它定义了很多小的神经模块,每个模块负责特定的功能(如定位物体,转移注意力等),然后将输入的问题解析为模块的组合从而得到一个由模块组成的程序,执行程序即可得到问题的答案。它充分利用了语言的可组合性,并且大大增加了模型的透明度。已有的 NMN 方法都是直接对图片本身的像素级特征进行操作,该论文认为人脑的推理过程是建立在符号、概念等基础上的,仅利用像素级信息很难进行精确的推理。另外已有的 NMN 方法需要仔细设计每个模块的内部实现细节,这是很需要技巧的,不容易扩展到新的领域。

论文方法:

论文提出了基于场景图(Scene Graph)来实现 NMN进行视觉推理。Scene Graph 是对图片进行解析后得到的结果,它的节点(node)对应图片中的物体,它的边(edge)对应物体之间的关系。作者认为物体检测和场景推理任务应该分离开来,推理任务直接建立在检测出来的物体上,而不是像以往的方法那样建立在像素级别上。基于 Scene Graph,作者设计了以下四种基本操作,作为元模块(Meta Modules):

AttendNode 输出一个在所有节点上的注意力向量,用来找到特定的物体节点;AttendEdge 输出一个在所有边上的注意力矩阵,用来找到特定的关系;Transfer 用来将注意力从一个节点转移到其他节点上,转移的路径由边上的注意力权重决定;Logic 用来对注意力向量进行逻辑操作,即与或非。只需要对这四种元模块进行组合,即可得到更加复杂的模块,以在 CLEVR 等数据集上使用,这大大简化了模块内部实现的设计。另外,所有的元模块都完全基于注意力机制,意味着在执行由模块组成的程序时,所有中间过程都可以进行可视化,这大大增强了模型的可解释性。

下面是论文方法的流程图。对于输入的图片和问题,使用外部解析器,将图片解析成 Scene Graph,将问题解析成模块组成的程序,然后在 Scene Graph 上执行程序,从而得到预测的答案。

实验结果:

论文在三个数据集上做了实验,分别是 CLEVR、CLEVR-CoGenT 和 VQA2.0。其中CLEVR 和 CLEVR-CoGenT 是合成数据集,VQA2.0 是真实数据集。

下表给出了在 CLEVR 上的结果,其中 XNM-GT 表示使用的是标注好的 Scene Graph,XNM-Det 表示使用的是检测出来的 Scene Graph,可以看到当Scene Graph 完全正确时,论文方法可以达到100%的准确率。由于论文提出的模块设计非常简单,模型只需要非常小的参数量,只是其他模型的几十分之一甚至几百分之一。

下表给出了在 CLEVR-CoGenT 上的结果,该数据集有两种设定,分别是 Condition A 和 Condition B,训练集全部都是 Condition A,而测试集则既有 A 也有 B。可以看到当 Scene Graph 完全正确时,在两种条件下论文方法均可以达到100%的准确率。

在 VQA2.0 上的结果,论文提出方法的效果要远远好于使用像素级特征的 StackNMN,同时也表明了方法在真实数据集上同样适用。

论文原文Explainable and Explicit Visual Reasoning over Scene Graphs. CVPR2019

[1] D. Amodei, S. Ananthanarayanan, R. Anubhai, J. Bai,E. Battenberg, C. Case, J. Casper, B. Catanzaro, Q. Cheng,G. Chen, et al. Deep speech 2: End-to-end speech recognition in english and mandarin. In International Conference on Machine Learning, 2016. 1

[2] P. Anderson, X. He, C. Buehler, D. Teney, M. Johnson,S. Gould, and L. Zhang. Bottom-up and top-down attention for image captioning and visual question answering. In CVPR, 2018. 8

[关于转载]:本文为“AMiner”官网文章。转载本文请联系原作者获取授权,转载仅限全文转载并保留文章标题及内容,不得删改、添加内容绕开原创保护,且文章开头必须注明:转自“AMiner”官网。谢谢您的合作。

二维码 扫码微信阅读
推荐阅读 更多