所有文章 > 正文

在对比学习中理解多视图的选择问题,来自谷歌大脑

作者: AI公园

浏览量: 1458

时间: 2021-06-11 07:38

关键词: 视图,学习,对比,信息,监督,选择,图像,下游,最佳,训练

自监督学习中如何选择不同的视图才能得到更好的性能?这篇文章试着做出了解释。

作者:Yonglong Tian,Chen Sun
编译:ronghuaiyang

自监督学习中如何选择不同的视图才能得到更好的性能?这篇文章试着做出了解释。

大多数人想当然地认为从几个不同的视图看同一个物体,仍然可以认识到它是同一件物体 —— 狗从前面看,从侧面看仍然是狗。当人们自然地这样做时,计算机需要显式地使机器能够学习视图不变的表示,以寻求保留对下游任务有用的信息的健壮的数据表示。


当然,为了了解这些表示,可以使用手工标注的训练数据。然而,在许多情况下,这类标注并不可用,而产生了一系列的自监督和交叉监督的方法,不需要手动标注训练数据。目前,一个受流行的使用这样的数据进行训练的范式是多视角对比学习,同一场景的两个视图,(例如,不同的图像通道,同一个的图像的不同增强,视频以及文本对),在不同场景的两个角度上出现差别时,在表现空间中趋于收敛。尽管它们取得了成功,但一个重要的问题仍然存在:“如果没有现成的标签,如何选择哪个可以使得表示保持不变的角度?”换句话说,一个人如何使用存在于图像本身像素中的信息来识别一个物体,而当图像从不同的角度来看时仍然保持精确?


在“What makes for good views for contrastive learning”,我们用理论和实证分析来更好地理解试图选择的重要性,并认为应该减少不同视图之间的互信息,同时保持任务相关信息的完整。为了验证这一假设,我们设计了无监督和半监督框架,通过减少视图之间的相互信息来学习有效视图。我们也将数据增强作为减少互信息的一种方式,并表明增加数据的增强确实会导致互信息的减少,同时提高下游分类精度。


InfoMin假说


对比多视图学习的目的是学习一个参数编码器,其输出表示可以用来区分具有相同视点对和视点的视点对。视图之间共享的信息的数量和类型决定了结果模型在下游任务上的执行情况。我们假设,产生最佳结果的视图应该在输入中丢弃尽可能多的信息,除了与任务相关的信息(例如,物体标签),我们称之为InfoMin原则。


考虑下面的例子,同一图像的两个patch代表不同的“视图”。训练目标是识别这两个视图属于同一图像。
共享过多信息的视图是不可取的,例如,低级的颜色和纹理线索可以被利用为“shortcut”(左图),或者共享太少信息的视图无法识别它们属于同一幅图像(右图)。相反,“最佳点”上的视图共享与下游任务相关的信息,比如针对物体分类任务(center)的熊猫不同部分对应的patch。


在对比多视图学习过程中捕获的三种信息状态的图解。视图不应该共享太多的信息(左)或太少的信息(右),而是应该找到一个最佳的组合(“甜蜜点”,中间),以最大化下游性能。


对比学习的统一观点


我们设计了几组实验来验证InfoMin假设,动机是有简单的方法来控制视图之间共享的相互信息,而不需要任何监督。例如,我们可以从相同的图像中提取不同的patch,简单地通过增加patch之间的距离来减少它们之间的相互信息。在这里,我们使用InfoNCE (INCE)来估计互信息,这是互信息下界的定量度量。实际上,我们观察到一个反向的u形曲线:随着相互信息的减少,下游任务的准确性先增加,然后开始下降。


将线性分类器应用于对比学习学到的表示上,对STL-10(左)和CIFAR-10(右)的下游分类精度。与前面的图解相同,视图从相同的图像中采样为不同的patch。增加patch间的欧氏距离会导致相互信息的减少。在分类精度和INCE (patch distance)之间观察到一个反向的u形曲线。


此外,我们证明了几种先进的对比学习方法InstDis,MoCo,CMC,PIRL,CPC都可以通过视图选择的角度进行统一:尽管在架构、目标和工程细节上存在差异,但所有最近的对比学习方法都创建了两个视图,它们隐含地遵循InfoMin假设,即视图之间共享的信息由数据增强的强度控制。基于此,我们提出了一组新的数据增强,它在ImageNet linear readout benchmark上的性能比之前的水平SimCLR高出近4%。我们还发现,将未经监督的预训练模型转移到物体检测和实例分割的效果始终优于ImageNet的预训练。


学习生成视图


在我们的工作中,我们设计了无监督和半监督的方法,根据信息系统假设合成新的观点。我们学习flow-based的模型,它将自然的色彩空间转换为新的色彩空间,从中我们分离通道以获得视图。对于无监督设置,视图生成器被优化以最小化视图之间的InfoNCE绑定。如下图所示,最小化InfoNCE界时,我们观察到类似的反向u形趋势。


视图生成器学习无监督(左)和半监督(右)目标。


为了在不过度减少互信息的情况下达到最佳状态,我们可以使用半监督设置并引导视图生成器保留标签信息。正如预期的那样,无论输入的颜色空间是什么,所有学习到的视图现在都围绕着最佳点。


代码和与训练模型


为了加速自监督的contastive learning的研究,我们很高兴与学术界分享InfoMin的代码和预训练的模型。
代码:https://github.com/HobbitLong/PyContrast/tree/master/pycontrast

论文链接:https://www.aminer.cn/pub/5f7fdd328de39f0828397bb9

扫码微信阅读
[关于转载]:本文转载于AI公园,仅用于学术分享,有任何问题请与我们联系:report@aminer.cn。