所有文章 > 正文

关键短语提取方法:有监督、无监督

作者: 章放

时间: 2019-06-24 17:49

由于本文研究的主要问题是从给定领域内抽取出最重要的 k 个研究话题,而研究话题在现实生活中往往被表示为文章或者段落的关键短语 — 比如人工智能、 机器学习、自然语言处理等等。

如果我们能够自动从这个领域内通过关键短语提取的方法来提取出最重要的关键短语,那么它或许也能帮助我们解决原来的问题。 本节将对当前比较有代表性的一些关键短语提取方法做出介绍。这些方法可以被分为两大类:有监督的和无监督的。在有监督的方法中,关键短语提取的问题通常会被重新定义为一个分类问题或者排序问题[12,13];而在无监督的方法中,当前 一般有下面几种解决思路:基于图进行排序 [14] ,基于话题进行聚类 [15] ,同时学习方法 [16] ,语言模型 [17] 。下面将一一介绍其核心框架。


有监督的关键短语提取

有监督的关键短语提取方法主要聚焦于两个问题:任务的重新定义和特征设计。在早起的监督方法中,关键短语抽取问题一般会被定义为一个二分类问题[12,13,18,19]。在这样一个二分类问题中,我们的目标自然就变成了基于部分标注好的关键短语来训练一个二分类器,使得该分类器能够自动判断一个短语是否是关键短语。研究者提出了各种各样的算法来训练这个二分类器,其中主要包括朴素贝叶斯法 [18] ,决策树法 [13] ,集成方法 [20,21] ,最大熵方法 [22,23] ,多层感知机 [24] ,支持向量机 [24,25] 。然而把关键短语提取的问题刻画为分类问题是有缺陷的 [26,27] :这使得我们很难比较两个关键短语哪个是更好的,因为它们只有是关键短语和不是关键短语两个标签。出于这种考虑,有研究者提出把关键短语提取问题刻画为一个排序问题 [25] 。在这个排序问题,我们的目标是学习一个排序器来比较任意两个短语的重要程度。实验表明,这个方法比以往经典的有监督的分类算法的效果要好。

在有监督学习中,我们一般需要选择一些特征来作为模型的输入,而在关键短语提取这个问题中,用到的特征主要可分为两种:文档内包含的特征和文档外获取到的特征。所谓文档内的特征,是指我们基于文档本身提出出来的一些数据, 这些数据又可被进一步分为:(1)统计特征;(2)结构特征;(3)语法特征。其中统计特征是指基于训练文档的统计数据计算出来的特征,在自然语言处理领域和信息检索领域,目前主要有下面几种文档统计特征:

(1)tf-idf 值[3]。这种值是基于候选短语在某个文档中的词频和候选短语出现的文档个数计算出来的。它的主要想法是:如果一个短语在文档中出现的频率很高,那么它应该是比较重要的; 但是如果一个短语在大多数文档中都出现了,那么它可能是一个宽泛的词,所以就那么重要了。

(2)短语的距离。它的定义是:短语在文档中第一次出现时出现在它之前的短语的个数,比上文档的总的短语的个数。

(3)有监督的关键短语度。 它的定义是:一个短语在训练文档中被标注为关键短语的次数。它背后的想法是: 如果一个短语在训练文档中多次被标注为关键短语,那么这个短语在新的未知的文档中也更可能是关键短语。这些特征构成了 KEA 算法[12] 的主要特征集合,并且在后续的研究中多次被证明有效[22,28]。除了这些特征之外,像短语的长度和伸展距离(spread)有时也会被考虑作为模型的输入特征。

结构特征一般是跟一个短语在文档中的位置是相关的。比如说,如果一个短语出现在一篇文章的简介、摘要、或者元数据里面,那么这个短语相比于出现在出现在文章其他地方的短语更可能是关键短语。目前有不少相关工作已经证明了 这部分特征的有效性 [22,29]

语法特征一般是编码了一个短语的语法信息。一个短语的语法信息一般有:(1) 构成该短语的每个字或者单词的 PoS(part-of-speech)标注信息;(2)构成该短语 的每个字或者单词的后缀信息。然而相关研究表明,在使用其他特征的情况下,语法特征在关键短语抽取这个任务中不是很有用 [22,23]


除了上述这些文档内的特征外,有一些文档外的特征也会被使用到关键短语提取这个问题中。文档外部的特征一般是指从互联网上丰富的网络资源中收集到的特征,比如从维基百科上或者一些已有的数据库里面。这些信息可以帮助我们判断当前文档中的哪些短语更可能是关键短语。事实上,从人读文章的角度来看, 人其实是在潜意识里用到了很多文档外部的信息的,这些信息一般来自于人的经 验积累,而这些积累的经验就可以看成是从外部的知识库或者数据库里收集到的 信息。

经验来看,如果一个短语多次在维基百科中被写成链接的形式,那么这个短语在文章中更有可能是一个关键短语。这样一个事实使得我们可以为每一个单词计算一个 ‘‘维基百科关键短语度”[30]:用每个短语的在文章中的词频乘以用维基百科的信息计算出来的一个比值,这个比值是维基百科中将该短语附上链接的文章的数量比上出现该短语的文章的数量。这种使用外部数据库或者知识库的信息来作为指导的思想也被称作是 ‘‘远程监督”[31],也就是说,使用训练数据之外的 ‘‘远程的’’ 其他信息来额外监督模型的训练过程。此外,有研究者还利用了短语是否出现在搜索引擎的查询日志中这样一种信息来作为该短语是否更可能是关键短语 的一个特征 [22] 。这种方法背后的思想是,如果用户经常查询某个短语,那么这个短语更可能是文章中的关键短语。还有研究者利用了外部的数据库 — 比如命名术语数据库中的信息来作为短语的一种特征 [24]


无监督的关键短语提取


随着互联网上文档数据的爆炸式增长,关键短语的标注数据在很多时候都显 得不够充足。因此我们希望能够用无监督的方法自动从文本中抽取出其关键短语。

当前的无监督关键短语提取方法主要有以下几类 [32] :(1)基于图的排序;(2)基于话题的聚类;(3)同时学习;(4)语言模型。下面将分别对其进行介绍。

基于图的排序. 在网络上,我们可以通过这样一种标准来判断一个网页是否是重要的:(1)它是否被很多其他的网页所指向;(2)指向它的网页是否是足够重要的。这样一种思想其实就是著名的 PageRank[33] 算法中体现的思想。类似地,在文档中,如果我们把所有短语都看成是一个个不同的网页,同时把短语之间的关系用他们间的相关性来刻画的话,那么我们可以认为:(1)如果一个短语跟文章中的很多其他短语都相关;(2)并且跟它相关的这些短语足够重要的话,那么我们认为这样的一个短语更可能是关键短语。由于没有一种直接的现成的计算两个短语的相关性的方法,我们只能用一些启发式的方法来代替。在传统的方法中,比较常用的方法是:(1)是用两个短语的共现频次来衡量这两个短语的相关性 [14,34] ;(2) 用两个短语的语义相关性来进行衡量 [35]

基于图的排序的基本思想是,用输入的文档来构建一个词图或者短语图,然后用类似 PageRank 的方法来计算图中每个节点的重要性。图中节点之间边的权重用节点之间的相关性来衡量。最终排序最高的 k 个短语就作为文章的关键短语提出。在所有图排序的方法中,TextRank[14] 是最为著名的一种。

基于话题的聚类.另一类无监督的提取关键短语的方法是,把文章中的所有短语都按照其可能对应的话题进行分类,使得每个话题类里面的短语都是跟其相关 的[15,35,36]。这种方法背后的思想主要是:(1)一个关键短语应该跟这篇文章讨论的主要话题中的至少一个是相关的;(2)提取出来的关键短语应该能够覆盖这篇文章的主要话题。

接下来介绍几种主要的体现这种思想的方法:(1)KeyCluster 方法;(2)Topical PageRank 方法;(3)Community Cluster 方法。

在 KeyCluster方法中[15], 研究者使用维基百科和基于词共现的一些统计信息来对候选的关键短语进行聚类。 这种方法的一个前提假设是,所聚出来的话题类应该能够代表文章中主要讨论的话题。然后我们选择每一类中最接近中心的点所表示的短语来作为这一类的代表, 也作为最终提取出来的关键短语。尽管实验表明这种方法比传统的TextRank 方法和有监督方法的效果要好,它也有一个不可否认的缺点:由于每一类都是一视同仁的,所以它们也具有相同的权重,而实际上一篇文章涉及到的几个话题可能是有着不同权重的,而对于权重很低的话题,我们其实未必需要提取出来一个专门的属于它的关键短语来代表它。为了解决这个缺陷,Topical PageRank(TPR)方法 被提出[36]。在这个方法中,TextRank 算法被多次运用在一个单独的文档上,每一 次都对应这使用 LDA[7] 方法提取出来的一个潜在的话题。通过这种方法,TPR 首先可以保证每一个文章可能出现的话题都被考虑在内。然后一个候选短语的最终得分通过以下方法计算得出:首先在每次 TextRank 中计算该候选短语的得分,然后用这个话题在文档中对应的出现概率作为该得分的权重,最后把这些得分的加权和作为该候选短语的最终得分。从这里我们就能看出这个方法把每个话题的不同权重也考虑在内了,因此相比上一种方法是优越的。在 CommunityCluster 方法中,每个不同的话题仍然具有不同的权重,但是与 TPR 不一样的地方在于,它认为对于一个权重比较低的话题,只要它里面的短语跟其他权重高的话题里面的短语有很高的相关性,那么该短语仍然有可能是文章的关键短语。


同时学习. 由于关键短语可以看成是文章的高度总结,研究者便认为如果我们同时对文章的关键短语和文章的总结进行提取,那么这两个任务是有可能从互相的训练过程中获益的。这种思想正式同时学习这个方法的核心思想。Zha[37] 提出第 一种基于图的同时进行文章总结和关键短语提取的方法,其背后的思想是:如果一个句子包含着重要的词(比如关键短语),那么这个句子也是重要的;重要的短语往往出现在重要的句子里面。Wan 等人[16] 基于下面两个假设扩展了 Zha 的工作:(1)一个重要的句子可能跟其他重要的句子是有关联的;(2)一个重要的短语也是可能跟其他的重要短语有关联的。这种假设其实是将 TextRank 中的短语上假 设扩展到了句子上。这个方法的好处也显而易见:它同时包含了 TextRank 和 Zha 的方法的优点。然后它也存在着一个显著的缺点:跟 TextRank 类似,它同样也无法保证提取出来的单词能够覆盖文章的主要话题。

语言模型. 很多现有的方法都把提取候选短语这一步从关键短语提取问题中分离出来,作为对比,Tomokiyo 等人[17] 提出了一种基于语言模型的方法将提取候选短语和对短语排序这两个步骤合并到一起。在这个方法里,一个候选的短语通过这样两种属性来评分:(1)短语度;(2)信息度。其中短语度的含义是指一个由单词构成的序列有多大的可能性构成一个实际的短语,而信息度的含义是指一个单词序列体现了它所在的文章的中心思想的程度有多高。因此如果一个短语在这 两项上的得分都很高,那么这个短语就很可能是文章的关键短语。而估算这两个得分的方法就是通过使用语言模型(Language Model,LM)[38] 的方法来进行估算的。我们通过使用一个前景语料和背景语料来一起训练这个语言模型。其中前景语料是由需要被提取的关键短语所在的文档集合构成的,而背景语料则是由网络上已有的一些知识库或者数据集构成的。我们分别针对这两个训练用的语料来训练一个 unigram 的语言模型和一个 n-gram 的语言模型。然后我们用前景语料上训练出来的这两个模型来计算一个短语的短语度:如果我们用 unigram 模型来代替 n-gram 模型,那么损失的信息就是这个短语的短语度;然后我们用两个语料上训练出来的模型一起计算一个短语的信息度:如果我们是从背景语料采样出这个短语而不是前景语料采样出这个短语,那么损失的信息就是这个短语的信息度。由于语言模型是一种概率模型,所以我们用 Kullback-Leibler(KL)散度来衡量信息的损失。最后我们把每个短语的这两个属性的得分的和来作为每个短语的最终得分,然后选择前 k 个作为最终提取出来的关键短语。


总结来看,语言模型方法使用了一个语言模型而不是人的直觉来识别短语,然 后使用了背景语料上训练出来的模型作为对比来衡量一个候选短语对于前景语料有多大程度的独特性。尽管通过语言模型识别短语不如通过人的直觉识别短语来的更可靠(效果也一般更好),但是这种模型中衡量一个短语对于前景语料的独特性的方法却是这个方法的一个优点和特点,比如它有可能能够发现一个尽管 tf-idf 值比较低,但是却有着比较高的前景语料的独特性的短语。


[31] Mintz M, Bills S, Snow R, et al. Distant supervision for relation extraction without labeled data [C]//Proceedings of the Joint Conference of the 47th Annual Meeting of the ACL and the 4th International Joint Conference on Natural Language Processing of the AFNLP: Volume 2-Volume 2. [S.l.]: Association for Computational Linguistics, 2009: 1003–1011.

[32] Hasan K S, Ng V. Automatic keyphrase extraction: A survey of the state of the art[C]//Proceedings of the 52nd Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers): volume 1. [S.l.: s.n.], 2014: 1262–1273.

[33] Page L, Brin S, Motwani R, et al. The pagerank citation ranking: Bringing order to the web.[R]. [S.l.]: Stanford InfoLab, 1999.

[34] Matsuo Y, Ishizuka M. Keyword extraction from a single document using word co-occurrence statistical information[J]. International Journal on Artificial Intelligence Tools, 2004, 13(01): 157–169.

[35] Grineva M, Grinev M, Lizorkin D. Extracting key terms from noisy and multitheme documents [C]//Proceedings of the 18th international conference on World wide web. [S.l.]: ACM, 2009: 661–670.

[关于转载]:本文为“AMiner”官网文章。转载本文请联系原作者获取授权,转载仅限全文转载并保留文章标题及内容,不得删改、添加内容绕开原创保护,且文章开头必须注明:转自“AMiner”官网。谢谢您的合作。

二维码 扫码微信阅读
推荐阅读 更多