CVPR2023 | GRES:通用基于文本的视觉定位任务
浏览量: 287
时间: 2023-06-07 13:45
关键词: expressions,多目标,无目标,单目标的expressions,区域模型
CVPR2023 | GRES:通用基于文本的视觉定位任务
1. 论文和代码地址
论文链接:GRES: Generalized Referring Expression Segmentation - AMiner
2.动机
现存的传统RES数据集和方法主要支持但目标expressions,一个expression查询一个目标物体,多目标和没有目标的expressions是没有被考虑的,这限制了RES在实际中的应用。
RES的缺陷:首先RES没有考虑使用没有目标的expressions,这意味着现在的RES方法是没有定义目标没有出现在图像中的情况的,当应用的时候,出现不匹配的情况,可能就会出现问题。其次,大多数现存的数据集,没有包括多个目标的expressions,这意味着多目标的输入是需要一个一个找目标的。
本文介绍了一种新的benchmarkGRES——通用RES,这个 模型扩展了传统的RES,使得RES可以查询任意数量的目标通过一个expressions。为了实现这个任务,构建了第一个大规模的GRES数据集——gRefCOCCO,这个数据集包括了多目标、无目标和单目标的expressions。GRES和gRefCOCO设计更好的与RES比较,更有利于RES模型的扩展和迁移。GRES中复杂的关系建模是具有挑战的,本文提出了一个基于区域的模型,ReLA适应性的将图像分为子实例的块,显示建模区域和区域、区域和语言之间的关系。
3. 方法
3.1 GRES设置
GRES数据集包括四个items,图像I,expression T,包括所有目标的GT分割mask MGT以及一个二进制label表示expression是否是有目标的。其中T中包含的实例数量是没有限制的。GRES以I和T作为输入,预测M,如果是没有目标的expression,那么输出的M应该是全部为负的。
图2中展示了多目标分割和无目标分割,图a)中展示了多目标expression作为输入,在一个单前向过程中去选择多目标,或者使用开放词汇来实现多目标分割。图b)中展示了expressions中有无目标的情况,GRES实现了更好的结果,这种检索能力能够增加RES模型的灵活性,从而提高了模型对现实场景的可靠性和健壮性。
本文提出了一个generalized IoU——gIoU来衡量GRES模型的准确度。
3.2 DataSet
gRefCOCO包括:278232expressions,80022多目标,32202无目标,60287实例在19994张图。
多目标描述的挑战:
数字表达:描述中包含数字描述,模型必须能够区分基数和序数。如图3(a)所示。
没有地理关系的句子结构构成:图三中需要模型理解图像和句子之间的大范围的依赖。
区域属性:当expression中包含多个目标的时候,不同的目标可能有相同或者不同的属性。模型要对于所有的属性深度理解以及将这些属性映射倒他们的目标上。
复杂关系:多目标的expression中不仅有一个目标,目标之间的描述变得更加复杂。
无目标描述的挑战:
图像和描述之间不能完全没有关系
expression 模板比较难提出,可以采用RefCOCO的数据集中的表达。
3.3 ReLA
与传统的RES模型相比,GRES模型应该对图像中的复杂区域交互进行建模,并且捕捉所有目标的属性。本文旨在显示建模图像不同部分和不同expression之间的关系。
3.3.1 overview
本文的模型结构如图4所示,输入图像通过Swin Transformer的编码器来提取视觉特征,输入的文本特征通过BERT来提取。文本特征和视觉特征同时喂入到本文提出的ReLA模块,该模块将视觉映射到P*P的区域,并对他们之间的关系进行建模,这些区域对应的是ViT图像的patch。ReLA对这些空间区域的形状是动态建立的——这和之前的工作是不一样的。
ReLA生成两个set feature,区域feature和区域filter。
Swin Transformer的编码器来提取视觉特征会送入一个pixel解码器取获取mask特征,用以做mask预测。
第n个区域的特征被用来去找到一个表示目标出现概率的标量x,其对应的区域filter乘以对应的区域的mask特征,用于生成区域分割mask——这个区域的面积。最后通过加权聚合mask来得到mask。
预测的mask通过GT目标mask进行监督,标量x通过目标GTmask的minimap下采样,将每个区域和对应的patch图像联系起来了。与此同时,使用所有区域特征的全局平均值来预测是否存在目标lable。
输出的mask、目标出现的区域概率和是否存在目标lable都使用交叉熵损失作为监督。
3.3.2 ReLAtionship Modeling
本文提出的ReLAtionship中包含两个模块:区域图像交叉注意力模块RIA和区域语言交叉注意力模块RLA。RIA灵活的收集了区域图像的特征,RLA捕捉了区域-区域以及区域-语言之间的依赖关系。
3.3.2.1 RIA
RIA区域输入视觉特征和P^2个可学习的基于区域的query,通过图四中展示的minimap作为监督,每个query和图像的一个空间区域对应,负责区域的特征解码。
3.3.2.2 RLA
区域图像特征是整理后的图像特征,没有包括语言特征。通过使用RLA模块来对区域-区域,区域-语言之间进行建模
4.实验
4.2 消融实验
展示了数据集在GRES任务上的必要性。比较了RefCOCO和gRefCOCO上训练相同模型的结果。结果展示,在gRefCOCO上训练的模型可以实现多目标分割以及无目标任务。
表二展示了RIA的性能增益。
1中送入encoder之前,图片直接分割为补丁。这种方法不适合ReLA框架,因为它使全局图像信息由于完整性受损,所以,效果并不是很好。
2表示RIA被替换为平均池化,表现效果比1好,显示了全局上下文在视觉特征编码中的重要性。
3删除了minimap监督,这样,基于区域的query成为简单的可学习query,去掉之后的模型表现下降了,这说明了query和空间图像区域之间的关系是有利于模型的。
表三展示了dependency建模对于GRES的重要性。
#1 baseline模型,RLA被逐点相乘区域特征和全局平均语言特征替换——和以前的工作的基本融合方式相同
#2中讲语言交叉注意力添加到baseline中,提升了模型的表现,这显示了区域-word交互模型的有效性,然后进一步加入区域自注意力来研究区域-区域关系的重要性模型表现提升了,和表示该部分对模型也又显著贡献。
表4展示了区域p的数量对于模型效果的影响,较小的P会导致较粗的区域,不利于捕获细粒度的属性,而较大的P需要更多的计算资源,并降低了每个区域的力度,使得关系学习变得困难,找到了组好的P。
4.3 GRES的实验结果
表5展示了与SOTA模型在gRefCOCO数据集上的对比。使用gRefCOCO数据集对于传统模型重新训练之后,进行测试的结果。
此外,为了探究显示建模的有效性,在VLT和LAVTT上添加了本文的ReLA替换解码器部分,从表中可以看到,本文提出的模块能够显著增强模型性能。
表6中,测试了无目标识别的性能,从表中可以看到,所有方法的表现都高于其他的方法。而且T-acc的值都在95%以上,说明了gRefCOCO在推广到无目标样本的同时不会显著影响模型的定位性能。
表中ReLA-50pix表示禁用了无目标分类器,实验结果表明,确实需要一个无目标分类器来提高性能。
N-acc的准确度不高,所以,非目标识别是未来的研究重点。
在经典的RES任务上评估了本文的方法,仅在RES数据集上进行训练,如图7,本文方法由于其他方法,所以显示建模关系有利于传统的RES。
图8展示了本文模型的定性结果,a中模型可以精确的分割同一类女孩或者不同类型女孩和狗。
b展示了计数词的分割结果。
c中有一个复合句,表示本文的模型可以理解排除关系,做出良好的推测。
图9展示了本文模型的失败案例,a中:左女孩和她的笔记本电脑”。这是一个非常欺骗性的案例。在图像中,中心的笔记本电脑比左边的女孩更占主导地位,更接近左边的女孩,因此模型将中心笔记本电脑突出显示为“她的笔记本电脑”
第二种情况下,表达是一个无目标的表达,指的是“灰色衬衫的男人坐在床上”。图像中,确实有一个坐在灰色衬衫的男人,但他正坐在一张非常接近床的黑色椅子上。这进一步要求模型查看所有对象的细粒度细节,并使用图像上下文理解这些细节。
5. 总结
基于传统RES任务中的缺陷,不能处理多目标和无目标的表达,本文提出了一个GERS通用的GRES框架,为了适应该任务,本文构建了一个数据集gRefCOCO,并提出了一个ReLA模型来实现GRES,并取得了SOTA结果。