所有文章 > 正文

自适应神经系统的未来:让大规模联合学习突破资源限制

作者: Jansfer, 学术杰

时间: 2019-07-29 18:16

联合学习可以进一步推动初始预训练模型的成本。如果联合学习能够成功推动的话,也许我们不需要等待更好的计算硬件了。

相关资讯:

能效接近人脑!麻省理工学院研制出低能耗高效率的神经元

密歇根大学研发了第一个可编程植入忆阻器电脑,将人工智能处理从云端拉下来

深度学习算法再次赶超人类,可更快地解出魔方

随着深度学习革命的进行,一种神经网络的趋势越来越明显,尽管并没有人对这种趋势专门命名,但似乎这种趋势可以简洁地用一个词来表达:规模。那么如何掌握一个事物的规模呢?我们通常使用计算和数据。从硬件加速器到高级软件工具,计算扩展已经成为堆栈各个层面的一项重大任务,而这已经有十多年的历史了。大数据已经成为新数字经济中的一个关键优势,它已经成为可以摄取和理解这些数据集的模型的驱动力。

在大多数情况下,那些最好的模型需要我们扩展这些资源的能力的最前沿。这是一个很实际的问题,因为预测有时需要以高容量和低延迟计算,但通常学习最好的模型并不是最快的。与解决此问题相关的研究领域称为模型压缩。这方面有许多技术,但其中一些有些人觉得有点不道德,比如将小权重设置为零并引入稀疏数据表示。其他似乎更像是知识蒸馏的原则,其中训练有素的重量模型用于“教”更小的网络,或者另一种称为条件计算的技术,其中控制器决定网络的哪些部分为给定的输入样本激活。关于压缩模型在普遍性方面与最初训练的网络相比损失了多少是一个悬而未决的问题。我们当然会看到在实验中,压缩模型的表现与其评估集上的原始模型一样好或甚至更好。但是在现实世界中部署模型就不如在实验室那样顺利了,环境总是会对实际情况产生影响。通往真正智能和自适应系统的道路可能依赖于模型减压。原理很简单:当科学家检测到模型的性能漂移时,在压缩模型中添加一些容量并即时学习。从技术角度来看,这听起来像是一个愚蠢的想法,因为我们今天处理模型漂移的方式更为有效,但是我们实际上只是重新训练或不断训练大型网络,并在我们想要发布新模型时重复压缩过程。

模型压缩得到真正关注的原因是因为我们希望部署这些技术而不受网络的限制。网络通信通常是受限制的最慢和最差的资源,因此如果您需要一台繁重的云服务器来完成所有机器学习并将其发送回移动电话或远程设备,那么结果就是可靠性将会很糟糕,而且延迟会非常高。模型压缩使我们能够运送这些模型并在设备上运行它们,具有低延迟和低功耗。最近有一些关于使用称为“助教”的中间模型的工作,以帮助建立一个过滤层次,以帮助“学生”网络更好地学习。为了解决边缘处的模型漂移,将其作为其逻辑终点,似乎中间网络可以坐在教师和学生之间的一系列资源需求上。当然,对于较小的漂移,这更有意义。它们都是相对的,而机器学习工程师形式的人在被警告模型突然消退时不应该自我调整。更有意义的是,我们向该系统引入了有助于自动化此过程的新组件。我们在培训和推理阶段之间的区别引起了很多批评。我们的想法是,培训应该像大脑一样,而不仅仅是一次性完成。这与持续学习者的研究有一定关系。不幸的是,这并不容易适应硬件故事。假设训练是非常计算密集的,并且在没有硬件加速的情况下情况相当无望。但这并不总是现实:从头开始训练是计算密集型的,但我们可能不需要数十或数百次通过我们的训练数据来适应新情况。也许值得重新审视使用当前硬件进行边缘训练的想法。

资源的严格限制是今天要解决的难题。它们对云的影响要小得多,因此我们不知道为什么我们没有自动调整系统并不断从各种流中提取数据的系统。即使我们拥有它们,但我所知道的组织中,他们的机器学习团队的规模是几十到几百。一个重要原因是构建可扩展的数据处理系统仍然是非平凡的。但更大的原因是,由于各种原因,我们的模型仍然难以训练,并且它涉及许多人尝试不同的想法以获得性能提升。这在机器学习的时代是有意义的,其中特征是手工生成的。但深度学习改变了这一点,或者至少它承诺了。我们在过去的几十年中,特别是最近的一个,已经表明这确实有效。但大多数现实世界的情景都没有得到一些非常聪明的科学家和多年来关于归纳偏差和数据准备策略的研究的好处。扩展他们的努力导致了诸如神经架构搜索,超参数优化和转移学习之类的事情。这些也被证明可以在Google内部使用,以至于它现在可以作为云服务使用。随着不同数据域中新的无监督预训练方法的形式,深度学习的规范成功可能最终实现跨领域和行业的许多现实世界问题。

而问题在于,到目前为止,这些元素还没有集成到一个系统中。有几个原因导致我们没有到达那里,有些部分似乎不兼容。例如,在通过神经结构搜索找到最佳架构后,如何使用预训练模型的转移学习?是否有软件可以存储模型并在您想要构建新模型时查询它们,检索最佳模型作为预训练起点?是否存在类似的事情,使原始数据成为当前网络的有效学习的最佳形式?当然这些算法存在超参数等价物,应该与模型一起调整?我希望我们能及时解决其中的一些问题,而这必须由行业研究实验室推动,该实验室具有系统工程和深度学习作为一门科学的专业知识。运行这样一个系统也需要很高的成本,而忽略了构建它所需的前期资金。但是,如果我们扩展我们对时间维度的看法,成本就不那么有趣了。因为每个人都知道计算成本总是趋于下降,所以现在已经有半个世纪了,尽管摩尔定律已经结束,但现在整个全球经济都在推动这一进步。成本也不那么有趣,因为转移学习有望消除大量必要的计算能力。人们只需要训练一次良好的基础模型,并根据需要对其进行多次微调,成本要小一个数量级。这引发了该领域另一项先进技术的应用:联合学习。

通常情况下,公司拥有他们不想分享的专有数据。然而,由于对其应用深度学习的严重成本限制,他们也可能对利用该数据犹豫不决。但是,如果我们拥有下一代自适应深度学习系统并结合联合学习的能力,即本地培训(如公司网络内部的内部培训),并且仅报告梯度,他们也许会更愿意外面的世界。具体而言,这可以使多个健康档案公司或律师事务所共同为他们的问题创建最佳模型,将其真正的应用程序留在下游,以便在他们不必共享模型的任何内容时对其特定问题进行微调。联合学习可以进一步推动初始预训练模型的成本。如果联合学习能够成功推动的话,也许我们不需要等待更好的计算硬件了。

随着越来越多的对于人工智能模型能效问题思考的涌现,我们也了解到了很多种提高模型效率的解决方法,以及对成果未来的展望。这其中包括本文所提出的基于云端的联合学习,以及相关资讯里基于硬件的超导神经元和可编程植入忆阻器电脑。你对智能学习模型未来的期望是如何的?怎样才能实现高效的神经网络处理呢?扫描文章右侧二维码关注学术头条微信,加入讨论群分享你的观点。

参考:hackernoon.com

[关于转载]:本文为“AMiner”官网文章。转载本文请联系原作者获取授权,转载仅限全文转载并保留文章标题及内容,不得删改、添加内容绕开原创保护,且文章开头必须注明:转自“AMiner”官网。谢谢您的合作。

二维码 扫码微信阅读
推荐阅读 更多