Réduire la précision et le nombre des multiplications nécessaires à l'entraînement d'un réseau de neurones

user-5e9d449e4c775e765d44d7c9(2015)

引用 0|浏览2
暂无评分
摘要
RESUME Les Reseaux de Neurones (RdNs) sont a l’etat de l’art pour un grand nombre de tâches, les meilleurs resultats etant obtenus avec de grands ensembles de donnees et de grands modeles. La vitesse de calcul des cartes graphiques est en grande partie a l’origine de ces progres. A l’avenir, l’acceleration des RdNs pendant les phases d’entrainement et de test permettra probablement une performance accrue ainsi que des applications grand public plus efficaces energetiquement. En consequence, la recherche en systemes numeriques dedies aux RdNs est d’actualite. Les systemes numeriques sont principalement faits de memoires et d’operateurs arithmetiques. Les multiplieurs sont de loin les operateurs arithmetiques les plus couteux en termes de transistors d’un systeme numerique dedie aux RdNs. Dans notre premier article, nous entrainons un ensemble de RdNs a l’etat de l’art (les reseaux Maxout) sur trois ensembles de donnees de reference : MNIST, CIFAR-10 et SVHN. Ils sont entraines avec trois formats distincts : virgule flottante, virgule fixe et virgule fixe dynamique. Pour chacun de ces ensembles de donnees et pour chacun de ces formats, nous evaluons l’impact de la precision des multiplications sur l’erreur finale apres l’entrainement. Nous trouvons qu’une precision tres faible est suffisante non seulement pour tester des RdNs, mais aussi pour les entrainer. Par exemple, il est possible d’entrainer des reseaux Maxout avec des multiplications 10 bits. Des poids binaires, c’est a dire des poids qui sont contraints a seulement deux valeurs possibles (e.g. -1 ou 1), permettraient de beaucoup reduire le nombre de multiplications necessaires lors de l’entrainement d’un RdN. Dans notre deuxieme article, nous introduisons BinaryConnect, une methode qui consiste a entrainer un RdN avec des poids binaires durant les propagations en avant et en arriere, tout en conservant la precision des poids stockes dans lesquels les gradients sont accumules. Comme les autres variantes de Dropout, nous montrons que BinaryConnect agit comme regulariseur et nous obtenons des resultats proches de l’etat de l’art avec BinaryConnect sur le MNIST invariant aux permutations. ----------ABSTRACT Deep Neural Networks (DNNs) have achieved state-of-the-art results in a wide range of tasks, with the best results obtained with large training sets and large models. In the past, GPUs enabled these breakthroughs because of their greater computational speed. In the future, faster computation at both training and test time is likely to be crucial for further progress and for consumer applications on low-power devices. As a result, there is much interest in research and development of dedicated hardware for Deep Learning (DL). Computer hardware is mainly made out of memories and arithmetic operators. Multipliers are by far the most space and power-hungry arithmetic operators of the digital implementation of neural networks. In our first article, we train a set of state-of-the-art neural networks (Maxout networks) on three benchmark datasets: MNIST, CIFAR-10 and SVHN. They are trained with three distinct formats: floating point, fixed point and dynamic fixed point. For each of those datasets and for each of those formats, we assess the impact of the precision of the multiplications on the final error after training. We find that very low precision is sufficient not just for running trained networks but also for training them. For example, it is possible to train Maxout networks with 10 bits multiplications. Binary weights, i.e., weights which are constrained to only two possible values (e.g. -1 or 1), would greatly reduce the number of multiplications required to train a DL. In our second article, we introduce BinaryConnect, a method which consists in training a DNN with binary weights during the forward and backward propagations, while retaining precision of the stored weights in which gradients are accumulated. Like other dropout schemes, we show that BinaryConnect acts as regularizer and we obtain near state-of-the-art results with BinaryConnect on the permutation-invariant MNIST.
更多
查看译文
关键词
Humanities,Algorithm,Art,Arithmetic operators,Deep neural networks
AI 理解论文
溯源树
样例
生成溯源树,研究论文发展脉络
Chat Paper
正在生成论文摘要