所有文章 > 正文

分布式表示学习基础模型

作者: 曹艺馨

时间: 2019-07-09 20:16

在机器学习领域,如何表⽰数据是⼀切模型的基础问题。

最初研究者们使⽤One-hot⽅法对词进⾏编码,即构造⼀个词表⼤⼩的向量,其中每一维代表词表中的⼀个词。这种表⽰不仅具有较⾼的时间和空间复杂度,⽽且具有数据稀疏的问题。例如,两个语义相关的词“篮球”和“⾜球”的向量却是正交的,⽆法正确表达它们的相似关系。分布式表⽰是解决这个问题的有效⼿段。

早在 1954 年,Harris 就提出分布式假说:语义相似的词具有相似的上下⽂ [10] 。在此基础之上,Firth 在 1957年进⼀步给出了明确的定义:词的语义由其上下⽂决定 [59] 。这就意味着可以通过上下⽂表⽰⽬标词的语义,为后续的分布式表⽰学习奠定了理论基础。

​1992 年,Brown 等⼈基于分布式假说提出了上下⽂聚类模型 [11] ,开启了基于聚类的表⽰学习⽅法。之后,研究者引⼊矩阵分解的思想。通过构造词-词或词-⽂档矩阵,在不同粒度上对词的上下⽂进⾏建模,然后使⽤奇异值分解(Singular Value Decomposition,SVD)、⾮负矩阵分解(Non-negative Matrix Factorization,NMF)、典型关联分析 [60,61] (Canonical Correlation Analysis,CCA)或主成分分析 [62](Principal Component Analysis,PCA)等矩阵分解技术得到词的低维表⽰,例如经典的潜在语义分析 [12] (Latent Semantic Analysis,LSA) Glove [63] 模型。

随着硬件技术和优化算法的突破,神经⽹络相关的模型开始在各个领域⼤放异彩。2013 年,Mikolov 等⼈通过简化前⼈的神经⽹络语⾔模型 [14,64–66] ,提出了著名的 Skip-gram模型和 CBOW 模型 [16] (Continuous Bag-of-Words)。它们极⼤的提升了模型的效率,进⽽促进了各个领域关于分布式表⽰学习的研究。

下⾯简单介绍 CBOW 和 Skip-gram 模型,作为本⽂和相关表⽰学习研究的实践基础。

CBOW 模型和 Skip-gram 模型

给定⽂档D,CBOW模型和Skip-gram模型为每⼀个词w i ∈ V 学习⼀个低维的向量表⽰w i 。并且,这些词向量显⽰出语义平移不变性:

如图2.4所⽰,假定对于⽬标词 w i ,它的上下⽂为

CBOW 模型和 Skip-gram 模型使⽤只有⼀层隐变量的浅层神经⽹络,对⽬标词和其上下⽂之间的共现关系建模。具体来说,CBOW模型利⽤上下⽂预测⽬标词。它直接对上下⽂词向量进⾏加权平均

得到上下⽂的向量表⽰ c w i ,然后最⼤化给定上下⽂时出现⽬标词的对数似然概率:

Skip-gram 模型则相反,它使⽤⽬标词预测其上下⽂,从⽽进⼀步省略了计算上下⽂表⽰的过程:

其中,条件概率使⽤ Softmax 函数进⾏如下定义:

由于Softmax函数需要遍历整个词表,CBOW模型和 Skip-gram模型在优化损失函数时使⽤负采样(Negative sampling)技术进⼀步提⾼效率。同时下采样(Subsampling)技术也被引⼊训练过程,以避免模型对⾼频词的偏差,提⾼模型泛化能⼒。总之,这两种模型以优秀的效率和效果被⼴泛应⽤在众多领域中的数据表⽰,如信息抽取 [67] 、问答系统 [68] 以及机器翻译 [39] 等。

本⽂以这两个模型为基础,对两种语⾔间的三类信息(词-词、词-实体和实体-实体)进⾏建模,以实现跨语⾔的词和实体联合表⽰学习。根据其中的关键问题,本⽂将它按层次递进的原则拆分为三个主要模块:词义表⽰学习、词和实体联合表⽰学习以及跨语⾔词和实体联合表⽰学习。沿着这⼀线索,研究现有⽅法的优缺点,最终提出本⽂的解决思路。

参考文献:

[10] Harris Z S. Distributional structure. Word, 1954, 10(2-3):146–162.

[11] Brown P F, Desouza P V, Mercer R L, et al. Class-based n-gram models of natural language.Computational linguistics, 1992, 18(4):467–479.

[12] Landauer T K, Foltz P W, Laham D. An introduction to latent semantic analysis. Discourseprocesses, 1998, 25(2-3):259–284.

[14] Bengio Y, Ducharme R, Vincent P, et al. A neural probabilistic language model. Journal ofmachine learning research, 2003, 3(Feb):1137–1155.

[16] Mikolov T, Chen K, Corrado G, et al. Efficient estimation of word representations in vector space. arXiv preprint arXiv:1301.3781, 2013.

[39] Zou W Y, Socher R, Cer D M, et al. Bilingual word embeddings for phrase-based machine translation. Proceedings of the 2013 Conference on Empirical Methods in Natural LanguageProcessing, 2013. 1393–1398.

[59] Firth J R. A synopsis of linguistic theory, 1930-1955. Studies in linguistic analysis, 1957.

[60] Dhillon P, Foster D P, Ungar L H. Multi-view learning of word embeddings via cca. Advancesin neural information processing systems, 2011. 199–207.

[61] DhillonPS,FosterDP,UngarLH. Eigenwords: spectral word embeddings. JournalofMachineLearning Research, 2015, 16:3035–3078.

[62] Lebret R, Collobert R. Word embeddings through hellinger pca. EACL, 2014. 482.

[63] PenningtonJ,SocherR,ManningC. Glove: Global vectors for word representation. Proceedings of the 2014 conference on empirical methods in natural language processing (EMNLP), 2014.1532–1543.

[66] Mikolov T, Karafiát M, Burget L, et al. Recurrent neural network based language model.Eleventh Annual Conference of the International Speech Communication Association, 2010.

[67] Fu R, Guo J, Qin B, et al. Learning semantic hierarchies via word embeddings. Proceedings ofthe 52nd Annual Meeting of the Association for Computational Linguistics (Volume 1: LongPapers), volume 1, 2014. 1199–1209.

[68] Zhou G, He T, Zhao J, et al. Learning continuous word embedding with metadata for question retrieval in community question answering. Proceedings of the 53rd Annual Meeting of theAssociationforComputationalLinguisticsandthe7thInternationalJointConferenceonNaturalLanguage Processing (Volume 1: Long Papers), volume 1, 2015. 250–259.

[关于转载]:本文为“AMiner”官网文章。转载本文请联系原作者获取授权,转载仅限全文转载并保留文章标题及内容,不得删改、添加内容绕开原创保护,且文章开头必须注明:转自“AMiner”官网。谢谢您的合作。

二维码 扫码微信阅读
推荐阅读 更多