所有文章 > 正文

Facebook创建新型AI模型,实现文本简化“因人而异”

作者: Jansfer

时间: 2019-10-17 18:29

Facebook 人工智能(AI)研究所的科学家正在朝着称为ACCESS(AudienCe-CEntric Sentence Simplification)的简化模型努力,他们声称该模型可以自定义文本长度、释义量、词汇复杂性、句法复杂性以及其他参数,同时仍然可保留句子的连贯性。

简化文本的语法和结构是我们大多数人在学校中学到的一项非常有用的技能,但是由于缺乏语言理解力,人工智能(AI)通常很难做到这一点。而Facebook 人工智能(AI)研究所的科学家正在朝着称为ACCESS(AudienCe-CEntric Sentence Simplification)的简化模型努力,他们声称该模型可以自定义文本长度、释义量、词汇复杂性、句法复杂性以及其他参数,同时仍然可保留句子的连贯性。

1 (1).jpg

研究人员详细介绍了他们的工作:“简化文本对患有失语症,阅读障碍症和自闭症等认知障碍者有很大的帮助,同时对第二语言学习者和识字率低的人也有利。不同受众所需的简化类型是不同的,但是文本简化的研究主要集中在开发模型,这些模型为给定的源文本进行简化应用,然而这种文本简化的结果不可能满足各种不同目标人群的需求。所以我们提出了一个可控的文本简化模型,该模型为其用户提供了一种新的方法,可以让用户在他们认为合适的情况下自己操作以及更新文本简化的结果。

为此,团队选择了seq2seq模型,这是一个通用的编码器-解码器框架,该框架将数据及其上下文内容作为输入。研究人员在源句的开头添加了一个特殊的记号值,用以计算目标句上的参数(比如长度)与源句上该参数的比值,然后研究人员根据四个选定的参数(即长度,释义,词汇复杂度和句法复杂度)来调整该模型。

2_wps.jpg

为了顺利进行实验,研究小组在Wiki-Large数据集上训练了一个Transformer模型,该模型包含了296,402个英文维基百科和简易英文维基百科自动对应的复杂句和简单句的样本。其中每个复杂句子都是由8条Amazon Mechanical Turk人员创建的释义句(释义句为不可再拆分的简单句)组成。该团队在SARI上报告说,这是一个得到广泛应用的基准测试模型,该模型将预测的简化程度与源句和目标句进行了比较,ACCESS得分为41.87,与之前最新技术水平的40.45分相比有“显著”提高。在只考虑可读性,不考虑语法和含义的指标下,它以7.22分排名第三。

研究人员表示,我们通过分析证实,每个参数都对文本简化的结果具有理想的效果。我们相信该方法有助于使文本简化的结果满足不同受众的不同需求。论文还表明了在参数上(如长度、释义量、词汇复杂性或句法复杂性等)对这些模型进行调整,可以显著提高模型在文本简化应用方面的性能。

参考:https://venturebeat.com/2019/10/14/facebooks-ai-streamlines-sentences-while-preserving-meaning/

[关于转载]:本文为“AMiner”官网文章。转载本文请联系原作者获取授权,转载仅限全文转载并保留文章标题及内容,不得删改、添加内容绕开原创保护,且文章开头必须注明:转自“AMiner”官网。谢谢您的合作。

二维码 扫码微信阅读
推荐阅读 更多