所有文章 > 正文

ERNIE:利用信息化实体增强语言表示

作者: 谢家旺

时间: 2019-08-30 16:27

在本论文中,作者利用大规模文本语料库和知识图谱来训练一个增强语言表示模型(ERNIE),该模型可以同时充分利用词汇、句法和知识信息。实验结果证明ERNIE1在各种知识驱动的任务中实现了效果的显著提升,同时,在其他常见的NLP任务中和最先进的模型BERT不相上下。

论文题目:ERNIE: Enhanced Language Representation with Informative Entities

论文作者:Zhengyan Zhang, Xu Han, Zhiyuan Liu, Xin Jiang, Maosong Sun, Qun Liu

论文原文:https://arxiv.org/pdf/1905.07129.pdf

论文背景

虽然预训练语言表示模型取得了可喜的成果并且在许多NLP任务中被用作常规组件,但它们忽略了可以合并知识信息来增强语言理解。如下图所示,如果不知道Blowin’ in the Wind和Chronicles:Volume one分别是歌曲和书,那么就很难识别出Bob Dylan有两个职业分别是作曲家和作家。在关系分类任务中提取细粒度关系几乎是不可能的,例如作曲家和作者。

xjw1.png

为了将外部知识纳入语言表示模型,我们提出了用信息实体来增强语言表示的方法,这个方法利用大规模文本语料库和知识图谱来预训练一个语言表示模型。下图为该模型的总体示意图:

xjw2.png

论文模型

ERNIE的整体模型架构由两个堆叠的模块组成:

1)基础文本编码器(T-Encoder)

其负责从输入token中捕获基本的词汇和句法信息。具体的,给定一个token序列{w1,...,wn}和它对应的实体序列{e1,...em},基础文本编码器一开始为每个token计算其输入,然后计算词汇和句法特征{w1,...wn}=T-Encoder({w1,...,wn}),其中T-Encoder(.)是一个多层双向Transformer编码器。

在计算了词汇和句法特征{w1,...wn}之后,采用一个编码器K-Encoder来将知识信息注入到语言表示模型中,最后将词汇和句法特征{w1,...wn}和实体序列{e1,...,em}输入到K-Encoder中融合异构信息和计算最后的输出,如下所示

xjw3.png

2)上层知识编码器(K-Encoder)

其负责将额外的面向token的知识信息集成到基础层的文本信息中,这样就可以将token和实体的异构信息表示到一个统一的特征空间。

编码器K-Encoder由堆叠聚合器组成,这些聚合器被设计来对token和实体进行编码以及融合它们异构的特征。第i个聚合器接收来自之前一个聚合器的输入,即token序列{w(i-1)1,...,w(i-1)n}和实体序列{e(i-1)1,...,e(i-1)m}。这两个序列分别输入到多头自注意力(MH-ATT)结构中。

xjw4.png

之后第i个聚合器采用一个信息融合层对token和实体序列进行集成并为每一个token和实体计算输入,对于一个token wj,其对齐的实体为ek=f(wj),信息融合处理过程如下所示:

xjw5.png

对于token如果存在对应的实体,可以按照上述的公式计算,如果token没有对应的实体,信息融合层就按照如下公式计算输出而没有集成。

xjw6.png

经过简化,第i个聚合器的操作可以表示为:

xjw7.png

tokens和实体的最终输出将由最高层的聚合器产生,而这个最终的输出也将作为编码器K-Encoder的最终输出。

3)注入知识的预训练

为了通过信息实体将知识注入语言表示模型中,该论文提出了一个新的预训练任务,即随机掩盖一些token-实体对齐对,然后要求模型基于对齐的token去预测所有对应的实体。该步骤称为一个去噪实体自动编码器(dEA)。考虑到对于softmax层来说实体列表过大的因素,仅要求模型基于给定的实体序列来预测实体而不是基于知识图谱中所有的实体。给定token序列{w1,...wn}和对应的实体序列{e1,...em},定义对给定的token wi对齐的实体ej的分布如下所示,其中linear()是一个线性层,该公式用来计算dEA的交叉熵损失函数。

xjw8.png

和BERT类似,ERNIE也采用了MLM和NSP作为预训练任务,这使得ERNIE能够从文本中根据token捕获词汇和句法信息。整体的预训练损失是dEA,MLM和NSP各损失之和。

实验结果

本文模型分别在两个任务上和各beseline进行对比。对Entity Typing任务在FIGER和Open Entity两个数据集上做了实验,通过accuracy,loose macro,loose micro scores来评价,结果如下所示。

xjw9.png

xjw10.png

对Relation Classification任务在FewRel和TA-CRED两个数据集上做了实验,通过precision,recall,micro F1来评价,结果如下所示。

xjw11.png

[关于转载]:本文为“AMiner”官网文章。转载本文请联系原作者获取授权,转载仅限全文转载并保留文章标题及内容,不得删改、添加内容绕开原创保护,且文章开头必须注明:转自“AMiner”官网。谢谢您的合作。

二维码 扫码微信阅读
推荐阅读 更多