所有文章 > 正文

ACL 2019 | 用义原知识建模语义合成

作者: 刘宝巨

时间: 2019-08-15 13:48

语义合成指复杂语义单元的语义可以由其成分的语义组成的现象。这篇文章验证了义原知识对于建模语义合成的作用。并将义原知识整合到语义合成的模型中,来进行多词表达式的学习。作者使用著名的义原知识库Hownet进行了训练和测试,验证了义原知识对建模语义合成的有效性。

论文作者:岂凡超,清华大学计算机系在读博士,导师是孙茂松教授,主要研究方向为自然语言处理

论文原文:https://arxiv.org/pdf/1907.04744.pdf

论文背景

很多文章关注使用基于向量的分布模型去建模多词表达式(MWEs:multiword expressions)。 一个形式化这个问题的通用框架可以表示为:

e1.png

其中f是组合函数,p是MWE的embedding,w1和w2分别代表MWE的两个成分的embedding,R代表组合规则,K代表额外的知识。大多数先前的工作关注f,只有很少有工作考虑外部知识库K。

义原是人类语言的最小语义单位。单词的语义可以用一个有限的义原集合来描述。Hownet是一个著名的义原知识库,其中定义了2000多个义原,并且使用义原描写了100000多个中文单词。

作者首先进行了一个小实验,测量语义组合度(Semantic Compositionality Degree)。 作者发现基于义原公式计算出来的语义组合度和人类计算出来的语义组合度十分吻合,因此猜测义原知识可以提升MWE的表示。

小实验介绍:不同的MWE展现了不同程度的语义组合,如表1,作者定义了四种语义组合度,SCD的number(3,2,1,0)越大,代表语义组合度越高。第一种计算语义符合度的方式是根据义原集合来计算。第二种计算方式由人类去进行组合度打分。实验发现两种计算方式的吻合度很高。

e2.png

论文模型

论文首先描述了不包含R的组合函数,后描述了如何把R加入到组合函数中。

组合函数

函数 SCAS:

e3.jpg

函数SCAS将两个word的embedding加和得到word部分的embedding输入,然后将两个word各自的义原向量集合平均,

e4.png

再将平均后的两个义原向量加和,形成sememe部分的embedding输入,然后将word部分和sememe部分的embedding级联在一起,得到一个2d维度的向量,通过一个tanh函数映射到d维度的NME向量。

e5.jpg

函数SCMSA:

e6.jpg

函数SCMSA和函数SCAS的区别在于sememe部分的embedding输入,函数SCAS采用了算数平均数,函数SCMSA引入了attention机制:

e7.jpg

规则R

语义合成的类别包括形容词-名词、名词-名词、动词-名词……等等,针对每一种情况,制定出一种独特的规则。文章通过为每一种规则训练一种Wc矩阵来实现融入规则信息。

e8.png

评测任务

作者使用MWE相似度计算和义原预测两个任务进行评测。

ADD,MUL,TIM,RNTN,RAE是baseline 模型,可以在[1][2][3][4]找到。SCAS-S表示不使用知识库的SCAS。SCAS表示使用知识库不使用R的SCAS。SCMSA表示使用知识库不使用R的SCMSA。SCAS+R表示使用知识库和R的SCAS。SCMSA+R表示使用知识库和R的SCMSA。

相似度计算任务:

作者使用WordSim-240 ,WordSim-297 和 COS960 进行了评估。实验结果如下:

e9.png

义原预测任务[1][2][3]

词是由一组有限的义原集合来描述。这个任务是为多词表达式来预测义原。作者选择Hownet作为义原知识库进行评测,Hownet包含11万标注了义原信息的中文单词。

参考文献

[1] Jeff Mitchell and Mirella Lapata. 2008. Vector-based Models of Semantic Composition. In Proceedings of ACL.

[2] Richard Socher, Jeffrey Pennington, Eric H. Huang, Andrew Y. Ng, and Christopher D. Manning. 2011. Semi-Supervised Recursive Autoencoders for Pre- dicting Sentiment Distributions. In Proceedings of EMNLP.

[3] Tim Van de Cruys, Thierry Poibeau, and Anna Ko- rhonen. 2013. A Tensor-based Factorization Model of Semantic Compositionality. In Proceedings of NAACL-HLT.

[4] Yu Zhao, Zhiyuan Liu, and Maosong Sun. 2015. Phrase Type Sensitive Tensor Indexing Model for Semantic Composition. In Proceedings of AAAI

[5]Huiming Jin, Hao Zhu, Zhiyuan Liu, Ruobing Xie, Maosong Sun, Fen Lin, and Leyu Lin. 2018. In- corporating Chinese Characters of Words for Lexi- cal Sememe Prediction. In Proceedings of ACL.

[6]Fanchao Qi, Yankai Lin, Maosong Sun, Hao Zhu, Ruobing Xie, and Zhiyuan Liu. 2018. Cross-lingual Lexical Sememe Prediction. In Proceedings of EMNLP.

[7]Ruobing Xie, Xingchi Yuan, Zhiyuan Liu, and Maosong Sun. 2017. Lexical Sememe Prediction via Word Embeddings and Matrix Factorization. InProceedings of IJCAI.

[关于转载]:本文为“AMiner”官网文章。转载本文请联系原作者获取授权,转载仅限全文转载并保留文章标题及内容,不得删改、添加内容绕开原创保护,且文章开头必须注明:转自“AMiner”官网。谢谢您的合作。

二维码 扫码微信阅读
推荐阅读 更多