所有文章 > 正文

DIVE框架通过提取和注释专业术语提高学术论文可读性

作者: Jansfer

浏览量: 130

时间: 2019-08-26 02:07

关键词: DIVE框架,提取,注释,专业术语,可读性

非专业读者通常不能理解那些科学文章,除非借助于能够理解这些概念和想法的第三方。为了解决这一问题,德克萨斯大学奥斯汀分校的克萨斯高级计算中心(TACC),俄勒冈州立大学(OSU)和美国植物生物学家学会(ASPB)组成了一个研究小组,他们已经着手开发了一种工具,这种工具可以自动提取研究论文中的重要短语和术语,并进一步提供能够被非专业人士理解的定义,增强文章可读性。

ty7.jpg

图|DIVE截图(图片来源:Gupta)

学术论文一般都会包含与各领域相关的很多新突破和有趣的理论。然而,大多数文章使用的专业术语和技术性语言只有熟悉特定的研究领域的读者才能理解。

非专业读者通常不能理解那些科学文章,除非借助于能够理解这些概念和想法的第三方。为了解决这一问题,德克萨斯大学奥斯汀分校的克萨斯高级计算中心(TACC),俄勒冈州立大学(OSU)和美国植物生物学家学会(ASPB)组成了一个研究小组,他们已经着手开发了一种工具,这种工具可以自动提取研究论文中的重要短语和术语,并进一步提供能够被非专业人士理解的定义,增强文章可读性。

在TACC带领团队的Weijia Xu说:“我们的项目动机来源于读者们提高期刊论文的可读性的需求。这是生物学专家,杂志出版商和计算机科学家们的共同努力,我们想要开发一项网络服务,它可以识别并管理作者文章中使用的重要术语。然后这些术语和词汇会被链接到期刊文章的最后来增加读者的可访问性。”

Xu和他的同事们开发了一个可扩展框架,它可以用于从文件中提取信息。然后他们在一个被称为DIVE(域信息词汇提取)的网络服务上测试了这个框架,并将其集成到期刊出版的ASPB通道。与现有的提取域信息的工具不同,他们的框架结合了多种方法,其中包括由存在论指导的提取、基于规则的提取、自然语言处理(NLP)和深度学习技术。

ty8.jpg

图|研究人员提出的体系结构图(图片来源:Gupta)

Xu解释说:“我们通过不同的模型获得结果,然后将其存储在一个集中的数据库中,我们还设计了一个网络服务,它允许用户处理提取结果。该网络服务与ASPB通道的出版物整合在一起。”

一旦预览版本的期刊论文提交并进入ASPB通道,原稿就会自动发送给DIVE,DIVE会处理它并产生一个URL,使得作者能够访问DIVE的处理结果。论文作者正式提交论文之前,会被要求访问提供的链接并检查提取信息。

Xu说:“作者需要访问DIVE网站审查提取结果,并最终批准这些信息列表被包含在文章的末尾,DIVE也会追踪作者做出的修正来调整以后的提取任务。目前,还没有其他杂志出版商采取类似的方法并将它与自己的出版物通道整合。”

在分析和从文件中提取关键数据时,该框架的开发人员使用了一些技巧。这使得它比其他方法获取了更多的信息,比如ABNER(一个生物命名的实体识别程序),这是一个用于分子生物学文本提取的开放软件工具,它只能提取一般术语(如基因和蛋白质)。与DIVE相比较,ABNER只基于条件随机域(CRFs),这是一种统计建模方法,它经常被用于模式识别和机器学习。

ty9.jpg

图|该系统提取的信息的统计图(图片来源:Gupta)

Xu说:“我们项目的主要贡献在于它有助于构建数据集和模型,可以从作者的出版物中推断出他们的研究兴趣,我们的项目可以使很多生物研究人员受益。对于作者来说,提取并包含关键信息可以增加文章的可访问性。”

Xu和他的同事Amit Gupta评估了他们的框架,并与其他信息提取工具的性能进行了比较,比如ABNER。他们的研究结果显示,通过使用多个方法,DIVE比其他只基于CRFs的模型精确度高。更有趣的是,DIVE框架还可以不断更新,其他提取模型可以在任何时候添加到其中。

DIVE网站应用程序不仅使非专业读者更好的理解学术文章,而且可以帮助他们确定论文是否符合他们的利益。另一方面,研究人员可以使用DIVE保持对特定研究领域的了解,学习新术语,并了解与他们感兴趣的领域有关的发展趋势。最后,该应用获取的信息能够在生物学专家进行决策和数据收集的过程给出指导。

Xu说:“我们正在从两个方面继续研究该项目。一方面,我们正在寻找整合我们的信息提取工具的新方法来提升其性能。另一方面,我们也在通过把该应用提供给其他的用户群体和杂志出版商扩大我们的服务范围。”

(参考:techxplore.com)

[关于转载]:本文为“AMiner”官网文章。转载本文请联系原作者获取授权,转载仅限全文转载并保留文章标题及内容,不得删改、添加内容绕开原创保护,且文章开头必须注明:转自“AMiner”官网。谢谢您的合作。

扫码微信阅读
[关于转载]:本文转载于Jansfer,仅用于学术分享,有任何问题请与我们联系:report@aminer.cn。