所有文章 > 正文

文本信息抽取的相关方法

作者: 顾晓韬

时间: 2019-06-24 17:35

用户文本信息是指地址、职称、所在机构、联系方式等能够从文本数据中显式抽取的信息。其作为一项基本抽取任务已经被研究了很多年。

本节介绍文本信息抽取的相关方法,以及用户信息抽取方面的相关工作。

半结构化文档的信息抽取

所谓半结构化文档是指布局结构有一定规则的文档,其包含的数据信息往 往以特定的格式进行排布,例如简历文档、电子邮件、个人主页等。从半结构化文档中抽取特定的用户信息是一个相对直观的思路。

Kristjansson 等人在 2004 年提出一种交互式信息抽取系统,帮助用户从电子邮件中构建用户联系方式数据库[19]

2005 年,Yu 等人的研究工作提出一种信息瀑布模型从个人简历文档中抽取用户信息 [1] 。他们首先将一篇文档分割成连续的区块,然后利用机器学习方法分别对相应的区块进行信息分类,从而获取地址、机构名称等信息。这在一段时间内成为相关问题的解决范本。然而,这些研究大多集中于从特定的文档中抽取信息,这在数据来源的格式等方面有着很大的限制,且只能用于抽取极其有限的信息类别,无法应用到到更为通用的场景。当数据量增大时,这类方法面临着存储和计算的压力,可扩展性差。同时,这种“被动抽取”的方式只能从给定的数据中进行抽取,无法应对“主动查询”的要求,做不到在线的信息抽取。

Web 用户画像方法

之后的更多工作开始关注于从更广泛的Web数据中抽取用户信息。例如, Artequakt[3] 是 Alini 等人在 2003 年提出的信息抽取系统,利用基于规则的抽取工具 GATE[2] 从 Web 网页中抽取命名实体和它们之间的关系。Michelson 和 Knoblock 在 2007 年提出了从 Web 数据中以无监督的方式抽取信息[4]

Tang 等人2010 年的研究工作提出了利用搜索引擎进行研究者画像的框架[20]。他们首先通过分类模型从搜索引擎中找到用户的个人主页,然后从相对结构化的个人主页中抽取不同类别的文本信息。针对链式条件随机场无法建模层次化的 HTML 数据的问题,他们提出了树形条件随机场模型(Tree-structured Conditional Random Field, TCRF)进行网页内容的识别。通过将 HTML 文档转化成 DOM 树结构,他们利用 HTML 的层次化标签数据信息进行更精确的数据划分和预测,在电子邮件地址、机构信息等抽取问题上取得了 85% 以上的F1值, 是目前相关问题的前沿方法。

Tang 等人的框架然突破了“被动抽取”的限制,然而也存在以下问题。先找个人主页再进行信息抽取的两个步骤之间存在错误积累,即主页判断的精度会直接影响最终抽取的精度。具体来说,记主页抽取精度为 Ph,主页的信息抽取精度为 Pi,则任务整体的抽取精度 P = Ph · Pi < min{Ph, Pi }。更为重要的是, 其对数据源的严格限制使得这种方法对没有个人主页的用户无能为力,同时遗漏了大量有用的 Web 数据,例如社交网络帖子等其他非个人主页中的信息。我们的方法将对这几点问题进行改进。

[1] Yu K, Guan G, Zhou M. Resume information extraction with cascaded hybrid model. Proceedings of the 43rd Annual Meeting on Association for Computational Linguistics, 2005. 499–506

[2] Cunningham H, Maynard D, Bontcheva K, et al. GATE: A framework and graphical devel- opment environment for robust NLP tools and applications. Proceedings of the 40nd Annual Meeting of the Association for Computational Linguistics, 2002. 168–175

[3] Alani H, Kim S, Millard D E, et al. Automatic ontology-based knowledge extraction from web documents. IEEE Intelligent Systems, 2003, 18(1):14–21

[4] Michelson M, Knoblock C. Unsupervised information extraction from unstructured, ungram- matical data sources on the World Wide Web. International Journal on Document Analysis and Recognition, 2007, 10(3):211–226

[19] Kristjansson T, Culotta A, Viola P, et al. Interactive information extraction with constrained conditional random fields. Proceedings of the 19th National Conference on Artifical Intelli- gence, 2004. 412–418

[20] Tang J, Yao L, Zhang D, et al. A combination approach to web user profiling. ACM Transactions on Knowledge Discovery from Data, 2010, 5(1):2:1–2:44

[关于转载]:本文为“AMiner”官网文章。转载本文请联系原作者获取授权,转载仅限全文转载并保留文章标题及内容,不得删改、添加内容绕开原创保护,且文章开头必须注明:转自“AMiner”官网。谢谢您的合作。

二维码 扫码微信阅读
推荐阅读 更多