ICCV2019 | RankSRGAN:基于排序学习的生成对抗超分辨率重建方法 - 热点 - 科研解读

所有文章 > 正文

ICCV2019 | RankSRGAN:基于排序学习的生成对抗超分辨率重建方法

作者: 肖健

浏览量: 2243

时间: 2019-10-22 09:29

关键词: ICCV，生成对抗网络，单幅图像，超分辨率重建，Ranker，RankSRGAN，感知指标优化生成器

本文将对ICCV2019的Oral论文《RankSRGAN：Generative Adversarial Networks with Ranker for Image Super-Resolution》进行解读。

本文作者：肖健在读博士

作者学校：哈尔滨工程大学

研究方向：生成对抗网络，视频处理，目标检测。

本文将对ICCV2019的Oral论文《RankSRGAN：Generative Adversarial Networks with Ranker for Image Super-Resolution》进行解读。

这篇文章聚焦于利用生成对抗网络（Generative Adversarial Networks，GANs）解决单幅图像超分辨率重建（SISR）问题。为了进一步改善超分辨率重建结果的视觉质量，PIRM2018-SR挑战使用了如PI、NIQE和Ma等与人类评价等级高度相关的感知指标来评价重建的感知质量，但现有方法无法直接优化这些感知指标。为此，该文提出了带有排序器Ranker的超分辨率重建网络--RankSRGAN，用感知指标优化生成器G。

该方法首先训练一个可以学习感知指标行为的Ranker，然后引入一个新的rank-content loss（内容排序损失）来优化感知质量。最令人瞩目的是，该方法可以结合不同SR方法的优势来产生更好的结果。大量实验表明，RankSRGAN在视觉效果方面取得了令人愉悦的效果，并在感知指标方面达到了最优的性能。

论文地址：https://arxiv.org/abs/1908.06382

源码地址：https://wenlongzhang0724.github.io/Projects/RankSRGAN

论文作者：Wenlong Zhang，Yihao Liu，Chao Dong，Yu Qiao（中国科学院深圳先进技术研究院，先进院-商汤联合实验室）

研究方法

单幅图像超分辨率重建旨在从一幅低分辨率（LR）图像重建或生成一幅高分辨率（HR）图像。近期基于CNN的SISR研究逐渐增多，主要分为两类：一类是将SR视为重建问题，利用MSE作为损失函数以获得高PSNR值；另一类方法是将SR转换为图像生成问题，以获得更好的视觉质量。第二类方法能获得更加逼真的重建图像，该文就是研究这种感知SR方法。

感知SR方法面临的最具挑战性的问题是评估，依靠人类主观判断不可靠也不公平。为了解决这个问题，该文提出了许多与人类评价高度相关的无参考图像质量评估（NR-IQA）指标，例如NIQE（相关系数0.76）和PI（相关系数0.83），PIRM2018-SR挑战已成功使用了这些指标。但是这些NR-IQA指标大多数是不可微分的，例如它们包括手工特征提取或统计回归操作，因此无法用作损失函数来优化网络。

为了使感知指标能用于优化网络，进一步提高重建质量，作者提出了一个通用且可微分的模型--Ranker，该模型可以模拟任何NR-IQA指标，并提供明确的目标（作为损失函数）以优化感知质量。Ranker是一个孪生CNN，它通过学习排序方法来模拟感知指标。Ranker与标准的SRGAN模型一起形成一个新的感知SR框架--RankSRGAN（带有Ranker的SRGAN）。所提出的框架还具有rank-content loss（内容排序损失），用训练好的Ranker来度量输出图像质量，这样SR模型可以针对特定的感知指标稳定地优化。图1显示了RankSRGAN的结果，它融合了SRGAN和ESRGAN的图像效果并获得了更好的NIQE得分（NIQE值越小越好，PSNR值越大越好）。

作者进行了全面实验证明了所提出方法的有效性。总结本文的贡献有三点。（1）提出了一个通用的感知SR框架--RankSRGAN，该框架可以利用不可微分的感知指标优化生成器，并实现了最先进的性能。（2）本文首次利用其他SR方法的结果来构建训练数据集。所提出的方法结合了不同SR方法的优势，并产生了更好的结果。（3）所提出的SR框架具有高度的灵活性，并且在构造的不同数据集，感知指标和损失组合的情况下产生多种结果。

图 1 RankSRGAN与其它感知SR方法的比较

RankSRGAN是在基于GAN的SR方法上建立的，它包含一个生成器和一个判别器。判别器网络区分是真实图像还是超分辨率重建的结果，训练生成器网络来愚弄判别器。为了获得更自然的纹理，作者通过利用感知指标的先验知识为标准SRGAN增加额外约束，以提高输出图像的视觉质量。RankSRGAN的整体框架如图2所示，主要包括三个阶段。

图 2 RankSRGAN的整体框架

阶段一：利用感知度量生成不同SR方法的重建图像，获得rank数据集。首先在公开的SR数据集上生成不同SR方法的超分辨率重建图像；然后在生成的图像上应用选定的感知指标（例如NIQE），之后选出内容相同的图像组成图像对（即相同图像经不同SR方法得到的HR图像组成的图像对），并根据感知指标计算出的图像质量得分对图像对进行排序。最后就获得了成对图像和对应的排序标签（标签的分配规则是：最好的NIQE值标记为1，即重建质量好的、NIQE值低的用1标记）。

阶段二：训练Ranker。Ranker采用孪生网络结构来学习感知指标的行为，Ranker具有两个相同的网络分支，其中包含一系列的卷积、LeakyReLU激活、池化和全连接层。在特征提取器之后使用全局平均池化GAP层，这样网络可以摆脱输入大小的限制。为了得到排序得分，使用一个全连接层作为回归器来量化排序结果。注意这里并不是预测感知指标的实际值，而是只关注排名信息。最后，两个分支的输出构成margin-ranking loss，这样我们可以计算梯度并应用反向传播来更新整个网络的参数。训练好的Ranker应该具有根据图像感知得分对图像进行排序的能力。

阶段三：训练重建网络RankSRGAN，判别器D的损失与SRGAN中的相同，生成器G的总损失包含三部分：感知损失、对抗损失和rank-content loss。其中rank-content loss由阶段二用训练好的Ranker给出，是本文方法新引入的损失函数，能使标准SRGAN生成视觉逼真的图像。

实验

作者进行了全面的实验证明所提出方法的有效性。

1.为了验证Ranker的有效性，作者比较了两种排序策略--度量排序（metric rank，本文提出所使用的方法）和模型分类。实验证明了度量排序可以组合不同算法的优势，并超过单个算法的上界。

2.作者用DIV2K数据集训练RankSRGAN，在Set14、BSD100和PRIM-test测试不同算法的性能，评价指标有NIQE、PI和PSNR（NIQE、PI值越低表示视觉质量越好），测试结果如下表所示。在NIQE和PI两个指标上，本文的RankSRGAN都比SRGAN和ERGAN性能更好，重建图像感知质量的提升是以牺牲PSNR为代价的。图3给出了不同方法重建的结果，RankSRGAN重建的图像具有更真实的纹理而不会引入其它伪像。

图 3 不同方法超分辨率重建结果

总结

针对超分辨率重建问题，本文提出RankSRGAN来优化面向感知指标的SR模型。关键思想是引入Ranker，通过排序学习来学习感知指标的行为。RankSRGAN可以结合不同SR方法的优势并产生更好的结果。大量的实验很好地证明了RankSRGAN是一个灵活的框架，可以在感知度量指标上取得最优的性能，并且能够恢复更逼真的纹理。

[关于转载]：本文为“AMiner”官网文章。转载本文请联系原作者获取授权，转载仅限全文转载并保留文章标题及内容，不得删改、添加内容绕开原创保护，且文章开头必须注明：转自“AMiner”官网。谢谢您的合作。

扫码微信阅读

[关于转载]：本文转载于肖健，仅用于学术分享，有任何问题请与我们联系：report@aminer.cn。

百篇论文纵览大型语言模型最新研究进展

AI Box

3269

首个支持联网的中文 AI 问答模型，开源了！

GitHubDaily

1424

当大型语言模型遇上信息检索评估：是颠覆还是革新？

AMiner AI

298