所有文章 > 正文

词义表示学习:基于外部知识的方法

作者: 曹艺馨

时间: 2019-07-02 17:52

给定文档集 D,词义表示学习旨在为词表中的每个词 wi ∈ V 学习多个向量表 示,每个向量 si,j 对应词的一个义项 si,j ∈ S(wi)。从而在不同语境下使用不同的词义向量,实现更精确的表示。

词义表示学习主要包括有监督、基于外部知识以及无监督三种表示学习方法。 本文主要为大家介绍基于外部知识的方法 。

为了减轻对标注数据的依赖,研究者们通过引入现有的知识资源为单词提供精准的义项描述。常用的知识资源有 WordNet[37]、Hownet[77]、以及 BabelNet[78]。 WordNet 主要以英文单词为主,以同义词集(Synset)为单位将名词、动词、形容词 和副词分别组织成一个语义网络。每个同义词集包含若干同义词,表示一个基本的语义概念。多义词可以同时出现在多个同义词集中,表示它的不同义项。同义词集之间的关系则构成网络中的边,例如名词网络中主要由上位(Hypernym)和下位(Hyponym)关系构成。最新版本的 WordNet 中包含约 11.7 万个同义词集和 15 万 英文单词。BabelNet 则以 WordNet 中的同义词集为基础,融合维基百科、Wikidata、GeoNames和OmegaWiki等多种资源,构成了现存最大的多语言百科同义词典。它目前包括超过 1400 万个同义词集,如图2.5(a)所示,“篮球”、“篮球比赛”、“basketball” 以及“basketball game”均存在于同一个同义词集中,表征“篮球运动”的义项。同时, 它与义项“球类运动”的边体现了上下位的关系。

Hownet 是面向中英文的常识知识库,它包含大约 10 万个中英文单词,这些单词共有约 13 万义项。与 WordNet 不同,它强调将义项分隔成更小的义原(Sememe) 以表示其角色和属性。义项之间的关系通过义原连接。图2.5(b)展示了有关“运动” 的单词、义项和义原之间的层次关系。可以看到单词“运动”被解释成两个义项,每个义项由义原定义:活动和锻炼。而义原“锻炼”进一步由义原“体育”进行领域限制。 此外,通过义原“锻炼”,“篮球”和“运动”被关联起来,代表两个义项在语义上相关。

若一个多义词同时出现在若干同义词集中,则这些同义词集均为它的候选义项,同时同义词集的定义及其包含的其它词为词义推断提供了必要的特征。Wawer 等人[70] 将 WordNet[37] 同义词集中的无歧义词(只有 1 个候选义项)在文本中进行替换,然后在替换后的文本语料上利用分布式学习方法学习同义词集的表示向 量,作为词义表示。Iacobacci 等人[69] 则使用 BabelNet 的词义推断工具 Babelfy[51] 为文档中的词进行词义标注,然后将语料中的每个义项看做特殊的词在 Skip-gram 模型中学习其表示。然而,这两种方法将词义推断和词义表示分两个步骤进行,具有以下两个缺点:(1)在标注好词义的语料上训练,只能得到词义向量而没有词向量,这在某些情况下无法满足要求;(2)词义的向量表示可以提供重要的词义特征,却无法加以利用以进行更精确的词义推断。因此,chen 等人[79] 将二者统一在一个学习框架中,迭代地优化词义推断和表示学习的结果。Rothe 等人[80] 使用自编码器(autoencoder)框架,先将词向量编码成同义词集,然后组合多个同义词集再解码回词向量,实现联合优化。类似的,Niu 等人[81] 进一步引入 Hownet 中的 义原,将词义分解为更细粒度义原的组合,在中文数据集上提高了单词相似度度量的准确率。

除义项本身之外,义项间的关系也对词义推断有很重要的作用。例如,单词 “运动”在体育锻炼这个义项下跟“篮球”有较高的相关度,这种关系通过图2.5(a)中 “运动”和“篮球”两个同义词集的共同邻居节点“球类运动”体现出来。Johansson 等 人[82] 提出在同义词集本身特征的基础上,构建语义网络,并假设邻居节点(义项) 应具有相似的语义,对词义表示学习加以限制。Ettinger 等人[83] 将这种思想扩展到 双语,其目的是利用多义词的义项通常在其它语言中使用不同的词进行表示,从而缓解歧义问题,进一步提高效果[84,85]。Pilehvar 等人则更深度的挖掘语义网络的信息,利用 Personalized PageRank(PPR)技术为同义词集选取最有代表性的单词, 平均这些词向量作为该同义词集的向量表示 [86]

[79] Chen X, Liu Z, Sun M. A unified model for word sense representation and disambiguation. Proceedings of the 2014 Conference on Empirical Methods in Natural Language Processing (EMNLP), 2014. 1025–1035.

[80] Rothe S, Schütze H. Autoextend: Extending word embeddings to embeddings for synsets and lexemes. Proceedings of the 53rd Annual Meeting of the Association for Computational Linguistics and the 7th International Joint Conference on Natural Language Processing (Volume 1: Long Papers), volume 1, 2015. 1793–1803.

[81] Niu Y, Xie R, Liu Z, et al. Improved word representation learning with sememes. Proceedings of the 55th Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers), volume 1, 2017. 2049–2058.

[82] Johansson R, Pina L N. Embedding a semantic network in a word space. Proceedings of the 2015 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies, 2015. 1428–1433.

[83] Ettinger A, Resnik P, Carpuat M. Retrofitting sense-specific word vectors using parallel text. Proceedings of the 2016 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies, 2016. 1378–1383.

[84] Guo J, Che W, Wang H, et al. Learning sense-specific word embeddings by exploiting bilingual resources. Proceedings of COLING 2014, the 25th International Conference on Computational Linguistics: Technical Papers, 2014. 497–507.

[85] Šuster S, Titov I, Noord G. Bilingual learning of multi-sense embeddings with discrete autoen- coders. Proceedings of the 2016 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies, 2016. 1346–1356.

[86] Pilehvar M T, Collier N. De-conflated semantic representations. 2016. 1680–1690.

[关于转载]:本文为“AMiner”官网文章。转载本文请联系原作者获取授权,转载仅限全文转载并保留文章标题及内容,不得删改、添加内容绕开原创保护,且文章开头必须注明:转自“AMiner”官网。谢谢您的合作。

推荐阅读 更多