收录160+篇文章！清华唐杰团队详解自监督学习 - 热点 - 科研解读

收录160+篇文章！清华唐杰团队详解自监督学习

作者: 安然

浏览量: 1599

时间: 2020-06-19 08:10

关键词: 唐杰，自监督学习，机器学习

深度思考自监督学习是如何工作的。

多年来，深度监督学习取得了巨大的成功，然而，其依赖于人工标注和易受攻击的弱点使人们一直在探索更好的解决方案。

自监督学习作为一种新的学习方法，近几年在表征学习方面取得了骄人的成绩，其利用输入数据本身作为监督，并使得几乎所有类型的下游任务都受益。

近日，清华大学教授唐杰发表了一篇《Self-supervised Learning: Generative or Contrastive》的综述文章，文章收录了160+篇文章，包括NLP、CV、Graph等领域的算法。

文章中，研究者讨论了新的自监督学习方法在计算机视觉、自然语言处理和图形学习中的表征。

论文概述如下：

深度神经网络在机器学习任务中表现出色，特别是在计算机视觉中的监督学习(图像分类、语义分割)、自然语言处理(预训练语言模型、情绪分析、问题回答)和图形学习(节点分类、图形分类)。

通常，监督学习是在一个特定的任务上进行训练，使用一个人工标记的大型数据集，该数据集被随机分为训练集、验证集和测试集。

然而，监督学习遇到了瓶颈——它不仅严重依赖昂贵的人工标记，而且具有泛化错误、虚假相关性和易受攻击等缺点。

研究者期望神经网络通过更少的标签、更少的样本或更少的试验来学习更多。

作为一种有发展前景的学习方法，自监督学习以其出色的数据效率和泛化能力引起了广泛关注，许多新的模型都遵循这一范式。

在该研究中，研究者全面了解了自监督学习模型的发展，并讨论其理论的合理性，包括框架如预训练语言模型(PTM)，生成对抗网络(GAN)，自动编码器及其扩展，深度信息和对比编码。

“自监督学习”最早是在机器人技术中引入的，其中通过查找和利用不同传感器信号之间的关系来自动标记训练数据。

然后，它被机器学习领域借用。在关于AAAI 2020的演讲中，Yann LeCun将自我监督学习描述为“机器会为其观察到的任何部分预测其输入的部分。” 可以将其概括为遵循LeCun的两个经典定义：

具体而言，此处的“其他部分”可能是不完整的、扭曲或损坏的。换句话说，机器学会了“恢复”其原始输入的全部或部分特征。

人们常常被无监督学习和自监督学习所迷惑。自我监督学习可以看作是无监督学习的一个分支，因为它不涉及人工标注。

但是，狭义地讲，无监督学习专注于检测特定的数据模式，而自监督学习旨在恢复，这仍然处于监督环境的范式中。

区分有监督，无监督和自监督学习框架的示意图

关于预训练语言模型、生成对抗网络、自动编码器和视觉表示的对比学习已有一些相关的综述，但它们都没有集中于启发性的自监督学习概念。

在这项工作中，研究者收集了近年来对自然语言处理，计算机视觉和图形学习的研究，以对自监督学习的前沿领域进行最新、全面的回顾。

综上所述，他们的贡献如下：

本文经授权转载自“图灵TOPIA”微信公众号，作者安然。感谢原作者的分享。

往期回顾：

睡不好脑子不好使？科学家证实，多做梦可以帮助大脑巩固记忆！

[关于转载]：本文原载于“图灵TOPIA”微信公众号，转载本文请联系原作者获取授权。谢谢您的合作。

扫码微信阅读

[关于转载]：本文转载于安然，仅用于学术分享，有任何问题请与我们联系：report@aminer.cn。