所有文章 > 正文

概念抽取相关综述

作者: 潘亮铭

时间: 2019-07-01 18:27

近年来,大规模开放在线课程的迅猛发展使得在线教育数据不断增长,为 MOOC 平台中的数据挖掘研究提供了前所未有的机遇与挑战。我们的工作着重在 MOOC 平台中进行课程概念的抽取,即自动发现课程视频字幕中包含的课程概念。

在之前,大规模开放在线课程中的课程概念抽取并未被直接研究过,但该工作与两个研究方向直接相关,即关键短语抽取与术语抽取,下面对其分别进行介绍。


关键短语抽取

关键短语抽取的定义是从文档正文中自动提取重要的、符合文档主题的短语[3]。该任务侧重于度量候选短语对于文档的重要性,而不考虑候选短语的语义。 与关键短语抽取相比,课程概念的抽取除了需要考虑候选课程概念对课程视频文本的重要程度,还需考虑该候选概念在语义上是否代表一个科学或者技术概念。

一般来说,关键短语抽取的相关方法可以被分为两类:有监督方法和无监督 方法。有监督的关键短语抽取方法通常将关键短语抽取问题形式化为一个二分类问题,即对每一个文档中的候选短语,使用训练出的分类器判断其是否为关键短语 [4] 。许多常用的机器学习模型都曾被作为有监督的关键短语抽取的分类器,例如朴素贝叶斯[5,6]、决策树[3]、最大熵[7] 和支持向量机[8,9]。有监督方法往往能取得较高的准确率,但其依赖于训练数据集的特点使它的实用性受到了较大的限制。另 外,有监督关键短语抽取的另一缺点是在针对某一特定领域的训练语料难以应用在对其他领域文本语料的关键短语抽取中。


非监督的关键短语抽取方法一般通过考虑各种特征来为每个候选短语进行评分[10]。一般来说,文档中的统计特征经常作为非监督关键短语抽取方法中的特征, 例如 tf-idf 、词共现或相邻的文档等。其中,Mihalcea 和 Tarau 提出的 TextRank [11] 模型是最著名的非监督关键短语抽取方法之一,它使用候选短语作为顶点,词语共现作为边建立图,然后在图上使用 PageRank 算法计算顶点的重要度,最后把重要度作为每个候选短语一个权值,排序选出关键短语。基于 TextRank 算法,许多 研究者进一步􏰀出了许多改进的无监督关键短语抽取算法。例如,Huang 等人[12] 使用与 TextRank 算法相同的方式构建了词共现的网络,但并不采用 PageRank 算法对顶点进行排序,而是使用小世界理论等网络分析方法对词共现网络进行分析, 从而抽取出关键短语。Wan 等人提出的 ExpandRank 模型[10] 则是不仅利用了当前 文档的词共现信息构建网络,而是同时使用了相邻文档中的词共现信息,从而构 建出全局的图模型,用于抽取关键短语。在 ExpandRank 之后,Liu 等人[13] 提出了 Topical PageRank (TPR) 算法,该算法针对 TextRank 算法的抽取结果经常聚集于同一主题的缺点,首先使用文档主题模型(LDA)将文档分成若干主题,之后对每一个主题构成的子图进行一次 PageRank,最后选择每个主题下得分相对较高的候选短语作为关键短语。


基于 TextRank 的关键短语抽取方法基于词共现网络,这容易导致出现频率高或者共现次数多的短语在排序中获得更高的排名。因此,一些关键词抽取算法采用 了其他的思路。Liu 等人[14] 提出了基于聚类的关键短语抽取方法。该方法先使用维基百科提供的语义信息以及本地语料中的词共现信息对候选短语进行聚类,然 后将距离每个聚类中心最近的短语作为关键短语。该方法的假设是每个聚类隶属 于一个主题,而距离聚类中心最近的短语可以很好地代表该主题的主要内容。Zha 等人[15] 和 Wan 等人[16] 的方法基于联合学习进行关键短语的抽取。他们将关键短 语抽取问题形式化为一种文档摘要问题,认为关键短语抽取和文档摘要是同一性 质的任务,并可以相互促进,核心假设是关键短语存在于关键句子中,而关键句子 包含关键短语。基于这种假设,他们将关键短语抽取和文档摘要两个任务联合进 行学习,并相互促进。最近,Liu 等人[17] 提出了一个新的从文本中抽取关键短语 的框架,它将短语切分融入到了关键短语抽取中,但该模型同样依赖于本地语料 的统计特征,对语料规模具有一定的依赖性。表 2.1 总结了不同类别的关键短语抽取方法。


无论是有监督还是无监督的关键短语抽取方法,它们大多依赖于本地语料的 统计特征,而低频短语能提供的可靠统计特征十分有限,这就导致了如何正确抽取 低频关键短语成为目前关键短语抽取方法所面临的重要挑战之一。为了解决这一挑战,许多相关研究尝试在充分利用本地文本信息的基础上引入外部的知识源,来提高对低频关键短语的抽取效果。KEA++ 系统[18] 是使用这一思路的代表性工作之一,它从一个领域相关词汇表中获取候选短语。Gazendam 等人[19] 同样使用了外部的领域词汇表为关键短语抽取提供背景知识。除了领域词汇表之外,知识库也被广泛引入到关键短语抽取中,为短语间的语义关系计算提供帮助。例如,Rospocher 等人[20] 使用 WordNet 中提供的同义词信息来帮助关键短语的抽取,如果一个低频 候选短语在使用统计方法时的得分很低,但与之同义的另一高频短语得分很高,则 系统会相应提升该低频短语的得分。Vivaldi 和 Rodríguez 的工作[21] 则利用了从维基百科中提取的分类体系结构信息来提供背景知识。与之类似,Berend 和 Farkas [22] 提出了数个基于维基百科的特征用于提高关键短语抽取的准确率。以上这些方法 均引入了明确的外部语义知识用于帮助关键短语的抽取,尤其是低频短语的抽取。 本文所提出的方法同样利用了外部语义信息帮助课程概念的抽取,但与以上方法 不同,我们使用了词嵌入的方法学习得到候选课程概念的语义表示,采用了更灵活的方式融入了外部语义信息。

术语抽取


自动术语抽取(Automatic Term Recognition,简称 ATR)的定义是自动从科技相关语料中识别出领域相关术语。领域术语是代表该领域的某一个科学技术概念 的词组。与关键短语抽取不同,自动术语抽取的目标是识别语料中代表领域术语的短语,而不关心该短语是否是语料中的关键信息。与本文中研究的课程概念抽 取不同,自动术语抽取只考虑候选课程概念是否为科技术语,而不考虑其是否与特定课程相关。自动术语抽取方法通常分为基于规则的方法和基于统计的方法。

基于规则的方法一般利用短语内部的语法规则信息、语言模板信息来进行术 语识别。其基本思路是利用一些种子术语,在大规模语料中利用语言模板进行术语的抽取。许多开放信息抽取系统,例如 Knowitall[23] 和 NELL[24],都采取了基于规则的术语抽取方法。对语言模板的选择和过滤是基于规则的术语抽取方法的核心。Tao 等人[25] 提出构建语义模式图(SPG)对抽取出的语言模板进行过滤,最后 利用语言模板从语料中抽取术语。Sonal Gupta 和 Christopher D. Manning [26] 提出了基于自学习的语言模板进行术语抽取,从少量种子术语出发,利用动态的语言模板迭代地抽取术语,并在迭代的过程中自动更新使用的语言模板。由于语言模板大多具有准确率高、召回率低的特点,因此使用基于规则的方法抽取出的术语往往置信度较高,但是覆盖率较低,语料中的许多术语无法被该方法有效地发现。

基于统计的术语识别方法一般利用词汇之间的统计关联度信息与一些和篇章相关的信息进行识别。例如 tf-idf 特征[27] 可以对单个词组成的术语进行有效的识 别。而对于多个词组成的短语构成术语的情况,一部分可以利用领域词库在分词阶段解决,另一部分可以利用词汇间的统计信息解决,比较常用的统计信息有左右信息熵(Pointwise Mutual Information,PMI)[28] 以及对数似然(Log-likelihood, LL)[29]。C-Value[30] 则是一种专门针对嵌套术语的抽取方法,它利用术语经常嵌套在术语中,而很少嵌套在其他短语中的特点对多词术语进行识别。基于统计的 术语抽取方法可以较准确地识别出术语,但对于术语在语料中出现的频率有一定的要求,对于语料中词频较低的术语,统计方法则很难奏效。一般来说,将基于统计的方法和基于规则的方法相结合,可以更加全面、准确地从语料中抽取出术语。

[关于转载]:本文为“AMiner”官网文章。转载本文请联系原作者获取授权,转载仅限全文转载并保留文章标题及内容,不得删改、添加内容绕开原创保护,且文章开头必须注明:转自“AMiner”官网。谢谢您的合作。

二维码 扫码微信阅读
推荐阅读 更多