干货！使用随机卷积改善视觉表征的鲁棒和泛化性能 - 热点 - 科研解读

干货！使用随机卷积改善视觉表征的鲁棒和泛化性能

作者: AI TIME 论道

浏览量: 389

时间: 2021-10-22 07:53

关注！点赞！分享！

虽然深度神经网络已经在各种计算机视觉任务中取得了成功，但其易受到纹理风格转变和小的扰动的影响，而人类对这些扰动是稳健的。在《Robust and Generalizable Visual Representation Learning via Random Convolutions》这篇论文中，作者使用随机卷积进行数据增强，极大的改善了神经网络的鲁棒性。随机卷积是近似地保留图像中的形状，并可能扭曲局部纹理。直观地说，随机卷积会创造出无限多的具有类似全局形状但随机局部纹理不同的新域。因此，作者探索使用多尺度随机卷积的输出作为新的图像，或者将其与原始图像线性混合进行训练。当使用论文中提出的方法训练的网络应用于未见过的领域时，该方法一直在提高领域泛化基准的性能，并且可以扩展到ImageNet。特别是在泛化到PACS中的素描领域和ImageNet-Sketch这一具有挑战性的情况下，作者所提方法以很大的优势胜过了最先进的方法。更有趣的是，该方法可以通过提供一个更稳健的预训练的视觉表征使下游任务受益。本期AI TIME PhD直播间，我们有幸邀请到了本文的作者徐震林博士为大家分享这项研究工作！

论文链接：https://www.aminer.cn/pub/5f1ff55c91e011d50a621a63

嘉宾介绍

徐震林：UNC Chapel Hill 计算机系博士生，研究兴趣为 data efficiency, robustness and generalization in visual representation learning。
背景

01Texture bias vs Shape Bias

前期的研究工作给我们的启发：对于CNN模型，即使在大规模的数据集上进行训练，依然会倾向于使用局部纹理特征而不是全局的物理形状进行分类。这种倾向或偏好会使得当模型遇到数据偏移或图像扰动时的性能下降。产生上述现象的原因是：在这种情况下，图像的纹理特征可靠性较差。所以我们得到了一种假设：如果我们能纠正这种偏好，那么模型对于这种起因下的泛化性能和鲁棒性都会产生相应的改善。基于上述假设，本研究的研究目标是：学习对于局部纹理信息具有不变性的视觉表征从而改善模型在新的数据的泛化能力。需要注意的是，原始设定是训练数据中只有一个域，或是多个域的混合，但并没有标记每个样本的域标签。

02Texture bias vs Shape Bias如果知道训练数据中有多个域(multiple domains)，且每个样本都有域标签，那么可以利用这种信息来学习和域无关的信息来提高泛化性能。如果没有多个域，那么可以采用数据增强的方式，对域因素进行合理假设。一些合理的数据增强的方法如下：(1) 数据来自于虚拟环境，可以产生数据随机变化进行数据增强（Random configurations in virtual environment）。(2) 对于实际图像来说，采用lmage style transfer，产生新的域，即使不是真实的域也没有关系，依然可以改善性能。但这种方式需要训练新的模型，并找到数据来作为新style的来源。(3) 通过产生对抗样本的思路进行数据增强（Gradient-based）(4) Feature augmentation

03本研究方法介绍

利用输入通道和输出通道都和图像channel数相同的卷积层。卷积层的参数通过高斯分布采样得到的，如下图所示，之所以采用这样的分布是因为它和一些神经网络初始化设置是一样的，因为假设输入的图像已经被归一化到了标准高斯分布的情况下，为了保证输出和输入具有相同的分布。使用随机参数化的卷积层，它的输出图像和输入图像会有相对一致的物体形状，但是它的局部纹理是随着采样参数的不同而随机变化的。且纹理被随机化的尺度是由卷积核的大小决定的，卷积核较大时，它保留的形状特征就越粗糙。

04随机选取卷积核的大小
不同卷积核大小下输出的变化如下图所示。使用比较大的卷积核会破坏比较多的纹理细节，只有比较大的形状的信息才会被保留。

为了得到更加丰富平滑的纹理变化，把输入图像和RandConv的输出图像结果进行线性混合，混合参数是从0-1的均匀分布中随机采样得到的，如下图所示，通过随机混合，可以得到比较丰富的纹理变化。

05Consistency regularization

Consistency loss：对于同一个输入图像的不同随机增强的结果。模型的预测结果应该是相似的。具体实现方法如下：

对一张图像进行三次不同的随机增强，这个模型对三次增强的预测y，并可以得到平均预测ȳ，对于每一个预测y和平均预测ȳ结果之间的KL散度求和作为consistency loss，这个loss会鼓励模型对同一个样本的不同结果的相似度进行鼓励。具体算法如下图所示。

06算法的验证

（1）Digits Recognition
首先，在较为简单和干净的数字识别数据集上进行验证，使用了5个不同Domain的数字识别数据：MNIST, MNIST-M, SVHN, SYNTH和USPS。使用MINIST-C作为corrupt 数据集，它包含了15种corruptions，例如高斯噪声等。实验在10000个MNIST样本上做训练和验证，之后在不同的Domain上测试其效果。
消融实验和超参搜索后得到结果如下。结果表明，最好的原图选择概率是0.5；multi-scale能帮助泛化性能的改善，从图（b）可以看出，1-7是最好的选择；对于consistency loss，从图（c）可以看出，在5和10上可以得到最优的结果。

使用搜索到的超参的结果对其他方法进行了对比，对比结果如下图所示，可以看出，在所有的方案中，本研究所提方案效果最后。同时结果还展示了可视化结果，分类结果越明显，泛化能力越好。

（2）PACS：Does Generalizability transfer

上述表格所展示内容是使用RandConv对上述问题进行探索的结果，右边红色数字是指性能提高的百分点。从实际意义上讲，在ImageNet pretraining中使用RandConv，对下游任务的泛化性能的提升是很有帮助的。

07结论
（1） RandConv是一个非常简单，但效果极佳的数据增强技术，当我们把它应用到和训练数据集分布不同的新的domain的时候，它可以让学到的数据表征的鲁棒性能和泛化性能更好。
（2）同时，泛化性能具备迁移能力，这意味着，我们可以把RandConv用在预训练阶段，来帮助改善下游任务的转化性能。

整理：张丽
审核：徐震林

[关于转载]：本文转载于AI TIME 论道，仅用于学术分享，有任何问题请与我们联系：report@aminer.cn。

扫码微信阅读

[关于转载]：本文转载于AI TIME 论道，仅用于学术分享，有任何问题请与我们联系：report@aminer.cn。

当大型语言模型遇上信息检索评估：是颠覆还是革新？

AMiner AI

335

LLM在语言错误检测上的表现：有何亮点和不足？