所有文章 > 正文

机器学习论文推荐|Evolving Normalization-Activation Layers

作者: 牛土豆

时间: 2020-05-29 10:53

本文第一作者及通讯作者为本科毕业于清华大学,博士毕业于卡耐基梅隆大学,现工作于Google Brain 的刘寒骁。值得一提的是,刘寒骁也是DARTS: Differentiable Architecture Search 的第一作者,这篇论文对于神经网络结构搜索(NAS)的搜索成本研究有了突破性的进展,也让NAS领域中的gradient-based方法变得更加流行。

今天为您推荐的论文为Google Brain 和DeepMind团队于4月28号挂在arXiv上的论文Evolving Normalization-Activation Layers ,作者为Hanxiao Liu, Andrew Brock,Karen Simonyan,Quoc V. Le .

Evolving Normalization-Activation Layers 的中心思想也是借助于搜索的方法来探寻最优的Normalization-Activation Layers。Normalization Layers和Activation Layers是深度神经网络的关键组件。近些年来有很多重要的研究工作致力于对两者的分别独立的设计,比如单一的设计Normalization Layers (Batch Norm,Group Norm, Instance Norm,Layer Norm 等等)或者单一的设计Activation Layers (ReLU,Sigmoid, Tanh,Swish 等等),都取得了相应的进展。然而,不同于传统地将这两者分别设计,此研究是第一个将两者合为一个整体的计算图来自动设计(automatically co-design)的工作。
如下图所示,此研究从一些最底层的基元(primitives)结构出发,通过这些基于的不同组合构成了很多不同的Normalization-Activation Layers。再通过演变的搜索方法来不断的淘汰表现不良的组合,并保留表现良好的组合。最后,演化算法搜索出了全新的normalization-activation layers,并将之命名为EvoNorms。

1590655411541-72487aba2dc95fde-cLt0gDFXNI.png

EvoNorms有两种系列:B系列(需要Batch的统计信息)和S系列(需要Sample的信息),如图所示给出了EvoNorm-B0和EvoNorm-S0的表达公式。

1590655411541-39252db57fd1ecb5-DIQj6md0Wu.png

1590655411541-5badd74a05793c2e-3FBOpJdicr.png

EvoNorm-B0的分母的实际意义是选取Batch Norm(BN)和Instance Norm表现更强的一个,下图是EvoNorm-B0对于MobileNetV2在ImageNet上的表现结果,相对于BN-ReLU,它可以一致的提高1~2个百分点的精度。

1590655411541-5c0f4f214f27226d-2mUYEnLyUC.png

不同于B0,EvoNorm-S0是不需要batch statistics的。它的分子实际上是Swish,分母代表的是Group Norm(GN)信息。如下图所示:

1590655411541-5c0f4f214f27226d-gQQ6jHeoV8.png

EvoNorm-S0相对于BN-ReLU和GN-ReLU精度更高,且精度不受batch size的影响。
总的来说,实验结果显示EvoNorms不仅能够在多种图像分类模型(包括ResNets, MobileNets and EfficientNets等)中取得较好的精度,而且可以很好地转移到实例分割(包括Mask R-CNN, SpineNet 等)和图像合成(例如BigGAN)。在这些问题的解决上,EvoNorms的结构明显优BatchNorm和GroupNorm。
认真研读本篇论文的读者就会发现,虽然EvoNorms取得了更好的精度,但是这些精度的提高取决于对一些hyperparameters的优化。另外,笔者认为EvoNorms在inference上的执行时间可能会增加。
欢迎大家提出关于本篇论文更多的思考和见解!

点击机器学习,查看更多相关论文

[关于转载]:本文为“AMiner”官网文章。转载本文请联系原作者获取授权,转载仅限全文转载并保留文章标题及内容,不得删改、添加内容绕开原创保护,且文章开头必须注明:转自“AMiner”官网。谢谢您的合作。

二维码 扫码微信阅读
推荐阅读 更多