所有文章 > 正文

英特尔实现无损精度下压缩AI模型

作者: Jansfer

浏览量: 88

时间: 2019-06-15 05:06

关键词: 英特尔,无损精度,AI模型,压缩

一般来说,AI模型的大小会影响其训练时长,因此较大的模型需要更多的训练时间,并且会进行更多的计算。

图|全球最大芯片制造商“英特尔”的标志(来源:REUTERS/Ronen Zvulun/File Photo)

目前可能的改进手段是优化数学函数(或神经元)之间的连接,这是一个称为剪枝(或修剪)的过程,它在不影响精度的情况下降低了模型的整体大小,但是只有训练完成后才能进行剪枝。

这也就解释了为什么英特尔的研究人员设计出逆向的训练模式,以一个小模型开始,基于训练中的数据来不断完善其结构。他们声称,相比于从大模型出发来压缩结构,这种方式具有更强的可操作性和计算效率,原因在于其训练是直接在小模型上进行的。同时研究人员认为,该模式不同于过去的尝试,它训练出来的小模型性能可匹敌一个经过修剪的大模型

从研究背景上看,大多数AI系统的核心神经网络由神经元组成,神经元呈层状排列,并将信号传递给其他神经元。这些信号(输入到神经网络的数据或预设值)从一层传递到另一层,通过调整连接点的突触强度来逐渐协调整个神经网络。长此以往,神经网络从数据集里提取特征,识别跨样本的趋势,最终学会做出预测。

由于神经网络无法识别原始图像、视频、音频或文本,因此,作为训练素材的样本必须通过代数的方法转换成多维数组,如标量(单个数字)、向量(标量的有序数组)和矩阵(标量排列成一个或多个列和一个或多个行)。而且,张量作为第四种类型的参数,包括了标量、矢量和矩阵,能够更加具体的描述有效线性变换(或关系)。

最近发布的一篇文章收录了2019年机器学习国际会议(International Conference on Machine Learning 2019)上的一份口头报告,报告指出该团队计划训练出深卷积神经网络(CNN),这种神经网络的大多层均是稀疏的质量张量,或者是一些主要包含零值的张量。所有这些张量都是在相同稀疏性(零个百分点)级别下初始化的,而非稀疏参数(具有一系列值的函数参数)用于其他大多数层。

在整个训练过程中,当参数在张量内部或跨张量移动时,神经网络中的非零参数总数保持不变,每几百次训练进行一次迭代,迭代可分两个阶段:先是修剪阶段,然后是增长阶段。一种基于大小进行操作的剪枝过程会删除具有最小权值的连接,并且在训练中跨层重新分配参数。

为了研究其性能,研究人员将神经网络的迭代次数(所有样本在神经网络上的一个正向传递和一个反向传递)翻倍,利用加拿大高级研究所的CIFAR10图像数据集和斯坦福大学的ImageNet,测试WRN-28-2和ResNet-50两个样本。他们发现,该方法在相同大小的模型中可以实现比静态方式更高的精度,并且所需的训练量大大减少,相比以往的动态方式其精度也有所提升。

该论文的主要作者之一Hesham Mostafa写道:“实验表明,在训练过程中探索网络结构对于达到最佳精度至关重要。如果构建一个静态的稀疏网络,是通过复制由动态参数化方案所发现的稀疏网络终结构,那么这个静态网络将永远无法训练到相同的精度水平。”

参考:Venturebeat

[关于转载]:本文为“AMiner”官网文章。转载本文请联系原作者获取授权,转载仅限全文转载并保留文章标题及内容,不得删改、添加内容绕开原创保护,且文章开头必须注明:转自“AMiner”官网。谢谢您的合作。

扫码微信阅读
[关于转载]:本文转载于Jansfer,仅用于学术分享,有任何问题请与我们联系:report@aminer.cn。