为了减少噪声标签的负面影响，抗噪机器学习领域提出了许多方法，它们可以分为三大类。第一种方法基于对标签转换矩阵的估算，该矩阵捕获了正确标签如何被翻转到错误标签上。然而，这可能是含有噪声和无法处理的大量标签。第二种类型基于正则化方法，然而由于深度网络通常是过参数化，在足够的训练时间下，仍然可以完全记忆含噪声的数据。

第三种方法是本文的重点，它基于在每个迭代中选择（或加权）可能干净的样本进行训练，通过降低训练数据的噪声，可以获得更好的性能。代表性的方法包括MentorNet和Co-teaching^[3]（去噪原理如下图所示）。具体地说，MentorNet使用一个额外的网络来选择干净的样本来培训一个StudentNet。Co-teaching通过在培训期间同时维护两个具有相同架构的网络来改进MentorNet，并且每个网络都使用来自另一个网络的小损失样本进行更新。

Figure 1 为何能用大损失衡量标签可能被污染的示意图

在样本选择中，一个核心问题是在每次迭代中选择多少个小损失样本。虽然丢弃大量样本可以避免使用噪声标签进行训练，但丢弃过多样本会导致准确度降低。Co-teaching使用后发现，深度网络通常在过度拟合噪声样本之前学习简单的模式，这种记忆效应广泛存在于各种深度网络中。因此，在训练的早期阶段，由于网络无法记忆噪声数据，Co-teaching会减少很少的样本。随着训练的进行，网络开始记忆噪声数据。这种情况在Co-teaching中是可以避免的，方法是根据预先确定的时间表逐渐减少更多的样本。从经验上讲，这显著提高了网络在噪声标签上的泛化性能。然而，尚不清楚其人工设计的时间表是否“最优”。此外，该调度与数据无关，但对所有数据集都是相同的。手动为每个数据集找到一个好的时间表显然非常耗时而且不可行。

注：[3]. Co-teaching是本组2018年发表于NeurIPS的工作，为当年10大高引论文之一

本次工作的方法

受AutoML成功启发，本文提出利用AutoML自动开发记忆效应。我们首先将制定学习描述为一个双层优化问题，类似于神经架构搜索（NAS）。基于深度网络共享学习曲线行为，设计了调度的搜索空间。这个空间是富于表现力的，但只有少量的超参数。然而，由于样本选择是一个离散算子，计算梯度非常困难。为了避免这一问题并进行有效的搜索，我们建议使用随机松弛和牛顿方法从模型和优化目标中获取信息。从经验上看，该方法优于现有的方法，并且可以比其他的样本选择方法选择更高比例的干净样本。实验表明，本次工作选择的搜索空间是合适的，且提出的搜索算法比其余的AutoML搜索算法更快。

动机图示：普世的记忆性

当在有噪声的数据集上训练深度网络时，网络会出现所谓“记忆性”现象：在训练的初始阶段，网络会学到一些简单的模式，在验证集上的准确率随之上升；而随着训练过程继续进行，网络会逐渐“记忆”噪声样本，导致验证集上的准确率因过拟合而下降。上述现象在不同网络、数据集、噪声水平和优化器设置下均能观察到，具有普适性：

受此启发，MentorNet和Co-teaching提出了如下的抗噪训练方法：随着训练过程进行逐渐去掉每批中的大损失样本，因为当模型在验证集上准确率提升后，这些样本更有可能是噪声样本，而非模型错分的样本。然而，已有工作均需要人工确定大损失样本移除比例的具体时间表，无法适用于多样的噪声数据集。因此，我们计划将AutoML引入抗噪机器学习领域，自动地选择大损失样本移除比例的时间表。

尽管不同噪声数据集上的最佳时间表可能十分不同，但一般来说，一个较好的时间表应与验证集上准确率趋势刚好相反：当验证集上准确率提升时，网络具有更好的判别能力，此时大损失的样本更有可能是噪声样本，所以应当移除更多的大损失样本，反之亦然。而上图显示网络在验证集上的准确率会先上升，再下降，因此一个较好的时间表应具有先下降，再上升的趋势。

基于上述推理，本文将时间表的搜索范围限制为一组具有“先下降，再上升”趋势函数的线性组合，相关函数及其示意图如下：

公式化AutoML目标

记网络权重为w，使用的时间表为R，我们的优化问题可以建模为如下的双层优化问题：

其中L_tr，L_val分别表示在训练（带噪）/验证（无噪）集上的损失，F为所有可能的时间表组成的集合。

然而，由于无法计算目标对R的导数，直接求解这个问题是十分困难的。为解决这一困难，本文提出对R进行随机松弛操作，在R上附加一个概率分布，并将优化目标由寻找一个较好的时间表转变为寻找一个更有可能抽取到较好时间表的概率分布，即优化在此概率分布下，用抽取到的时间表R训练网络在验证集上表现的期望，如下式所示：

其中x为控制时间表R的参数，f（x）为使用这一时间表R（x）在验证集上的表现，p_theta为随机松弛的概率分布。

快速Newton优化算法

已有使用随机松弛的AutoML算法均基于梯度下降或自然梯度下降，无法利用优化目标的高阶信息，具有收敛速度较慢、训练过程不稳定等问题。由此本文提出将Newton优化算法应用到随机松弛上，导出了上述随机松弛问题Hessian矩阵的一般形式，如下：

算法流程见下图（细节请参见论文）。

本文同时从理论上证明了，在梯度和Hessian矩阵可能出现一定偏差的情形下，同样可以保证优化过程收敛到稳定点（详见论文 Theorem 1）。

实验

基准标签噪声数据

该实验中，使用了三个流行的基准数据集：MNIST、CIFAR-10和CIFAR-100。接下来，添加了两种类型的标签噪声：

1. 对称翻转，它以相同的概率将标签翻转到其他不正确的标签上；

2. 成对翻转，即翻转一对相似的标签。我们使用相同的网络架构。

我们将S2E与以下最先进的方法进行比较：Decoupling、F-correction、MentoNet、Co-teaching、Co-teaching+、Reweight。作为一个简单的基线，我们还与直接在全噪声数据集上训练的标准深度网络进行比较。所有实验重复五次，取平均结果。下图显示了测试精度的收敛性。可以看出，S2E明显优于其他方法，并且更加稳定。

下图比较了S2E和Mentonnet、Co-teaching和Co-teaching+的样本选择方法。

可以看出，由S2E学习的R（·）是特定于数据集的，而其他方法总是使用相同的R（·）。此外，在噪声较大的数据上学习的R（·）较小。因为较高的噪声水平意味着每个小批量中的干净样品（R（·）更小）。此外，R（·）下降的大损失样本比例大于潜在噪声水平。由此看出，大损失样本通常具有较大的梯度，如果标签错误，可能会对模型产生重大影响。由于大损失样本不一定会因为模型的不完美而产生噪声，所以会丢弃更多的样本。另一方面，简单地丢弃更多的样本会导致精度降低。

下图比较了S2E和其他比较方法的标签精度（即，选择后每个小批次中干净样品的比率）。可以看出，S2E的标签精度一直是最高的。这表明，S2E使用的训练样本更干净，从而产生更好的性能。

对比实验

在这个实验中，我们依旧使用MNIST、CIFAR-10和CIFAR-100数据集来研究不同的搜索空间设计。将S2E的搜索空间与Co-teaching在指定空间比较，并与Single的单个基函数跨越的空间进行比较。在这里，我们展示了四个基函数的最佳性能；为了公平比较，本实验采用随机搜索。重复50次，取平均结果。

上图显示了不同搜索空间变量所获得的所有时期的最佳测试精度。Co-teaching和Single的性能优于两种一般函数逼近法（RBF和MLP）。

上图显示了在CIFAR-10数据集上由MLP（其性能优于RBF）获得的R（·）（MNIST和CIFAR-100的结果相似）。可以看出，这些形状通常遵循此前的假设，为支持这一假设提供了进一步的经验证据。S2E所获得的性能仍然是最好的（即使这里只使用随机搜索）。这证明了所提出的搜索空间的表达性和紧凑性。

搜索算法

S2E使用随机松弛和牛顿法作为搜索算法。在此，我们将研究其他基于梯度的搜索算法的使用，包括梯度下降（Gradient Descent）、自然梯度下降（Natural Gradient Descent）、以及随机搜索、贝叶斯优化（Bayesian Optimization）、hyperband等无导数搜索算法。实验在CIFAR-10上进行。

上图显示了测试精度w.r.t.这类调用的数量。可以看出，与其他算法相比，使用Hessian矩阵的S2E是最有效。

总结

本次工作利用深度网络的记忆效应，利用AutoML来解决带噪声标签的学习问题。首先根据学习曲线的观察值设计一个有表现力但紧凑的搜索空间，通过一种基于随机松弛和牛顿法的高效搜索算法，克服了计算梯度的困难，并允许将模型和优化目标的信息结合起来。经试验表明，该方法的性能优于现有的方法，并且可以比其他的样本选择方法选择出更高比例的干净样本。