所有文章 > 正文

基于相似文档的半监督学习方法

作者: 曹艺馨

时间: 2019-07-10 12:06

相似⽂档是具有相同主题但使⽤不同语⾔进⾏描述的⽂档对。

如图所⽰,中⽂⽂档和英⽂⽂档有共同的主题“迈克尔·乔丹”,所以它们被定义为相似⽂档。给定相似⽂档集 D en−zh = {(D ien, D izh)},半监督学习⽅法的基本思路是⾸先对⽂档加以融合得到同时包含两种语⾔的双语⽂档,然后使⽤分布式学习⽅法在双语⽂档上直接训练得到所有词的表⽰。

Vulic 等⼈于 2015 年率先提出使⽤维基百科中具有等价关系的实体描述作为相似⽂档,通过随机在两篇⽂档中选词,得到融合后的“伪双语⽂档”(pseudo-bilingual document),再使⽤ Skip-gram 直接得到两种语⾔的词向量表⽰ [142]

由于维基百科中语⾔资源⾮常不平衡,⽐如英⽂⽂档通常⽐中⽂⽂档长的多,于是他们在 2016 年进⼀步提出了按⽐例融合以构建“伪双语⽂档”的⽅法 [143]

两种⽅法的具体效果如图所⽰,可以看到,实际上“伪双语⽂档”很难控制不同语⾔上下⽂的相关性,并且这种错误会持续累积,进⽽影响跨语⾔词向量表⽰学习的效果。

图相似⽂档构造⽰例:随机融合⽅法和按⽐例融合⽅法

参考资料:

[142] Vulic I, Moens M F. Bilingual word embeddings from non-parallel document-aligned data applied to bilingual lexicon induction. Proceedingsofthe53rdAnnualMeetingoftheAssociationfor Computational Linguistics and the 7th International Joint Conference on Natural LanguageProcessing (Volume 2: Short Papers), volume 2, 2015. 719–725.

[143] Vulic I, Moens M F. Bilingual distributed word representations from document-aligned comparable data. Journal of Artificial Intelligence Research, 2016, 55:953–994.

[关于转载]:本文为“AMiner”官网文章。转载本文请联系原作者获取授权,转载仅限全文转载并保留文章标题及内容,不得删改、添加内容绕开原创保护,且文章开头必须注明:转自“AMiner”官网。谢谢您的合作。

二维码 扫码微信阅读
推荐阅读 更多