所有文章 > 正文

ACL 2020 | RikiNet: 阅读维基百科页面进行自然问答(彩蛋!作者分享了PPT)

作者: 刘大一恒

浏览量: 1296

时间: 2020-07-08 02:20

关键词: ACL,自然语言处理,RikiNet,AI顶会,作者带你读论文

本文提出了一个新的模型称为RikiNet(意为Reading Wikipedia的神经网络模型),阅读维基百科的整个页面进行自然问答

感谢论文作者的解读和分享!

论文标题:RikiNet: Reading Wikipedia Pages for Natural Question Answering点击标题阅读论文,可以看到作者分享的PPT)

作者:Dayiheng Liu,Yeyun Gong,Jie Fu,Yu Yan,Jiusheng Chen,Daxin Jiang,Jiancheng Lv,Nan Duan.

机构:四川大学,微软研究院,蒙特利尔理工大学

收录会议:ACL 2020

阅读长文档进行开放域问题回答是自然语言理解领域的一个挑战。针对Google的Natural Question任务,本文提出了一个新的模型称为RikiNet(意为Reading Wikipedia的神经网络模型),阅读维基百科的整个页面进行自然问答。RikiNet的单模型首次在Natural Question上双指标超过单人类,其集成模型提交时在Natural Question Leaderboard取得了双指标第一名。

Google Natural Question任务

随着机器阅读理解模型和问答模型的发展,越来越多的模型性能在多个数据集上超过了人类。Google Natural Question(NQ)于19年被提出,为开放域问答提出了新的挑战。如图1所示,该任务给定一个用户在Google搜索引擎中输入的自然问题,以及与该问题最匹配的维基百科页面,要求模型预测出回答该问题的长答案(即该页面中的某一个段落)和短答案(即某一个answer span),以及是否存在长答案或短答案。

1-78-bhN4CQfLPp.png

图1 Google Natural Question的数据样例

左上角为问句,左下角为相关的维基百科页面,右上角为该问句的长答案,右下角为该问句的短答案

RikiNet模型结构

如图2所示,RikiNet模型由两部分组成:

(1)动态的段落双重注意力阅读器(Dynamic Paragraph Dual-attention Reader, DPDA reader),通过利用一系列互补的注意力机制和预训练语言模型对文档和问句进行编码,以得到上下文相关的问句表示,token-level和paragraph-level的文档表示。

(2)多层级的级联答案预测器(Multi-level Cascaded Answer Predictor,MCAP),利用DPDR输出的多层级表示,以级联的结构依次预测长答案、短答案和答案类型。

图片1-sSBHziDA97.png

图2 RikiNet模型结构

具体来说,DPDA reader首先使用预训练语言模型获得问句和文档的上下文表示,再通过多层DPDA Block对问句和文档进一步建模。每一个DPDA Block分别对问句进行自注意力机制建模,对文档进行段落动态自注意力机制建模。其中,段落动态自注意力机制由两个自注意力掩码矩阵叠加组成:a. 段落掩码,使得当前token只与相同段落的token执行注意力交互,以生成段落级别的表示。b.动态掩码,由掩码预测器动态产生掩码矩阵,使自注意力机制更关注于重要的信息。在得到词级别的表示后,我们将位于相同段落的token通过池化操作得到相应的段落表示,并通过池化操作得到问句表示、文档表示。

上述多层级的表示将通过MCAP以级联的方式依次预测长答案,短答案起始位置,结束位置和答案类型,该级联的方式能够充分利用不同答案的预测信息,以完成NQ任务的多个目标。

实验结果

我们将基于BERT和RoBERTa的RikiNet模型与之前的模型进行比较,包括IBM AI,Google AI在NQ任务上提出的模型。如表1所示,我们的单模型首次在长答案(LA)和短答案(SA)的F1分数上超过单人类,并且集成模型在提交时取得了NQ leaderboard双指标第一名。

图片2-eYrzAheqh5.png

表1 NQ数据集模型结果

我们进一步对模型进行ablation study。首先在保留BERT的情况下对DPDA reader进行分析和实验,包括去除相应的注意力机制、block层数、动态注意力词数,结果如表2上所示。同时我们也对MCAP进行了进一步的消融实验,并比较了不同的预测层和级联顺序,结果如表2下所示。

图片3-IgUARRn8Vd.png

图片4-XErcn1PMsW.png

表2 消融实验结果

更多ACL 2020论文请点此查看

关阅读:
ACL2020开幕在即!这些是你需要提前知道的数据

引用量 TOP 10 的ACL历届会议“最佳论文”

SIGIR 2020 | MOOC异构信息网络中基于图卷积网络的知识点推荐

[关于转载]:本文为“AMiner”官网文章。转载本文请联系原作者获取授权,转载仅限全文转载并保留文章标题及内容,不得删改、添加内容绕开原创保护,且文章开头必须注明:转自“AMiner”官网。谢谢您的合作。

[关于转载]:本文转载于刘大一恒,仅用于学术分享,有任何问题请与我们联系:report@aminer.cn。