所有文章 > 正文

有监督学习方法常用的三类标注数据

作者: 曹艺馨

时间: 2019-07-03 17:21

有监督学习⽅法使⽤语料中标注好的跨语⾔映射关系,作为监督信号,优化不同语⾔下语义相关的词向量,使其具有相近的表⽰。

如图2.11所⽰,常⽤的标注数据有:(1)翻译词典包含互为翻译的词对,例如中⽂单词“篮球”是英⽂单词 “basketball”在中⽂下的表述;(2)翻译句对提供句⼦级别的跨语⾔语义映射关系例如,句⼦“我喜欢篮球”是英⽂“I like basketball”的翻译,但并不知道句⼦中词的 对应关系;(3)词对齐的平行语料则包含了以上两种信息,在翻译句对的基础上, 标明“我”和“I”、“喜欢”和“like”、“篮球”和“basketball”的映射关系。下⾯,本⼩节分别介绍使⽤以上三种标注数据的相关⼯作。

翻译词典

翻译词典可以形式化的定义为翻译词对的集合:Ven−zh = {(wen i ,wzh i )}。使⽤ 翻译词典法的基本思路是⾸先分别学习⼏种语⾔的词向量表⽰,然后通过映射函 数将两种语⾔对齐到同⼀向量空间中。Mikolov等⼈[126] Word2Vec的基础之上, 提出使⽤翻译矩阵的⽅法来学习跨语⾔词向量的映射函数,即通过线性映射矩阵, 使得源语⾔中的词向量到⽬标语⾔词向量的平⽅误差最⼩:

最后将翻译矩阵X应⽤在整个源语⾔词表上进⾏跨语⾔映射。

另⼀种寻找映射关系的典型⽅法是典型关联分析(Canonical Correlation Analysis,CCA)。CCA是⼀种度量两个多维变量之间线性相关性的统计分析⽅法。它通过寻找两个映射矩阵,将两个多维变量分别映射到新的⼦空间,使其相关性最⾼。Faruqui等⼈[49] 利⽤CCA为两种语⾔的词向量寻找变换矩阵:

其中Corr为相关系数,X和Y分别为英⽂和中⽂词向量的映射矩阵。以上两种⽅法均隐含了线性变化的前提假设。然⽽语⾔间的关系复杂多样,单纯的线性变换往往效果并不理想。因此Lu等⼈提出使⽤神经⽹络代替变换矩阵,再进⾏CCA进⾏关联分析[127]

翻译句对

翻译句对可以形式化的定义为互为翻译的句对集合:Sen−zh = {(sen i ,szh i )}。使⽤翻译句对的⽅法可以分为两种:词对齐法和词组合法。词对齐法是受翻译词典⽅法的启发,在翻译句对间⾸先推断可能的词对应关系,然后按照对应关系对齐 两种语⾔的词向量[128]

词组合法的基本思路是⾸先根据词向量得到句⼦的表⽰,然后优化两个句⼦表⽰的语义关系,进⽽对齐两个语⾔的向量空间。

Chandar等⼈提出跨语⾔⾃编码器[129]AutoEncoder),他们将⾃编码器的重构思想拓展到翻译句对之间的语义重构,即将源语⾔的句⼦表⽰作为输⼊,期望重构出另⼀种语⾔的句⼦表⽰。⾃编码器的权值矩阵即为对齐在同⼀空间的跨语⾔词向量表⽰(图2.12(a))。

受跨语⾔⾃编码器启发,Hermann等⼈[46] 提出可以直接最⼩化两个句⼦表⽰之间的距离来对 齐不同语⾔间的分布式表⽰,其中通过组合⼀元或⼆元的词向量来获得句⼦表⽰, 称为双语组合向量模型(Bilingual Compositional Vector Model,BiCVM)(图2.12(b))。

对很多语⾔来说,翻译句对的规模⼀般是⾮常有限的。因此,Gouws等⼈[130] 进⼀步提出 Bilbowa 模型,将跨语⾔的 BiCVM 和单语⾔的 Skip-gram 模型统⼀在同⼀框架中,使得模型可以利⽤⼤规模的⾮平⾏数据对有限的平⾏语料进⾏补充。

由于 Bilbowa 模型中的双语约束使⽤词袋模型得到句⼦表⽰,Coulmance 等⼈[131] 认为它并不能很好的利⽤翻译句对间的语⾔学特征,于是令两个句⼦互为对⽅的跨语⾔上下⽂,并通过扩展 Skipgram 模型到双语,使得双语约束和单语优化⽬标具有⼀致的形式。Mogadala 等⼈[132] 则是将句⼦看做⼀个特殊的词,与单语训练⽬标同时进⾏优化得到整体的句⼦表⽰[133],作为 Bilbowa 中双语约束的补充,并使⽤学习的句⼦表⽰在跨语⾔⽂档分类取得了很好的效果。

此外,还有⼀种直接有效的⽅法就是统计翻译句对中词的对应次数,构建词对齐矩阵,再由该矩阵直接对源语⾔表⽰向量进⾏变换。但是由于翻译句对⼗分有限,这种⽅法必须额外处理词表外(Out-of-Vocabulary,OOV)的单词,增加模型的适⽤范围。

Guo 等⼈[134] 提出基于形态学特征的机制,为每个 OOV 单词寻找 编辑距离⼩于1的词集合,平均它们的词向量作为该词表⽰。⽽Shi等⼈[135] 借鉴 Glove的思想[63],将单语⾔的词统计融合进词对齐矩阵,通过矩阵分解得到跨语⾔的词向量。

词对齐的平行文档

相⽐于翻译词典和翻译句对,词对齐的平行文档对标注语料的要求更为严格, 因此多出现于早期的跨语⾔词向量表⽰学习中。

最初,Klementiev 等⼈[38] 提出首先构造双语对齐矩阵,然后使用多任务学习(Multi-task Learning)同时对不同语言的词向量进行更新,更新规则为⼀种语⾔词向量的梯度通过对齐矩阵同时传递 到另⼀种语言的向量表示,从而达到联合学习的目的。Zou 等⼈[39] 则根据词对齐 矩阵计算双语映射的平⽅误差,并作为单语⾔表⽰学习的正则项进行约束,在机器翻译任务上获得了较⼤提升。

根据平行文档中词的对应关系,实际上可以获得⼀个单词的跨语言共现关系, 即与它对齐词的上下⽂。因此,Luong 等⼈[41] 提出双语 Skip-gram 模型,即在使用目标词预测其单语言上下文的同时,也预测其跨语言的上下文。两种语言的训练⽬标通过词对齐关系被整合起来。但是由于语言的多样性,不同语言的句法结构大不相同,从而影响跨语言上下文的质量。Soricut 等⼈[136] 进⼀步引⼊单语言中的词-词依赖关系,以此为⽬标词获得更准确的跨语言上下文。

参考文献:

[38] Klementiev A, Titov I, Bhattarai B. Inducing crosslingual distributed representations of words. COLING,2012. 1459–1474.

[39] Zou W Y, Socher R, Cer D M, et al. Bilingual word embeddings for phrase-based machine translation. Proceedings of the 2013 Conference on Empirical Methods in Natural Language Processing, 2013. 1393–1398.

[41] Luong T, Pham H, Manning C D. Bilingual word representations with monolingual quality in mind. Proceedings of the 1st Workshop on Vector Space Modeling for Natural Language Processing, 2015. 151–159.

[46] Hermann K M, Blunsom P. Multilingual models for compositional distributed semantics. Proceedings of the 52nd Annual Meeting of the Association for Computational Linguistics (Volume 2: Short Papers), volume 2, 2014. 224–229.

[49] Faruqui M, Dyer C. Improving vector space word representations using multilingual correlation. Proceedings of the 14th Conference of the European Chapter of the Association for Computational Linguistics, 2014. 462–471.

[63] Pennington J, Socher R, Manning C. Glove: Global vectors for word representation. Proceedings of the 2014 conference on empirical methods in natural language processing (EMNLP) , 2014. 1532–1543.

[126] Mikolov T, Le Q V, SutskeverI. Exploiting similarities among languages for machine translation. CoRR , 2013.

[127] Lu A, Wang W, Bansal M, et al. Deep multilingual correlation for improved word embeddings. Proceedings of the 2015 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies, 2015. 250–256.

[128] Kociský T, Hermann K M, Blunsom P. Learning bilingual word representations by marginalizing alignments. Proceedings of the 52nd Annual Meeting of the Association for Computational Linguistics(Volume 2: Short Papers), volume 2, 2014. 224–229.

[129] AP S C, Lauly S, Larochelle H, et al. An autoencoder approach to learning bilingual word representations. Advances in Neural Information Processing Systems, 2014. 1853–1861.

[130] Gouws S, Bengio Y, Corrado G S. Bilbowa: Fast bilingual distributed representations without word alignments. International Conference on Machine Learning, 2015. 748–756.

[131] Coulmance J, Marty J M, Wenzek G, et al. Trans-gram, fast cross-lingual word-embeddings. EMNLP,2015.

[132] Mogadala A, Rettinger A. Bilingual word embeddings from parallel and non-parallel corpora for cross-language text classification. Proceedings of the 2016 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies, 2016. 692–702.

[133] Le Q V, Mikolov T. Distributed representations of sentences and documents. International Conference on Machine Learning, 2014. 1188–1196.

[134] Guo J, Che W, Yarowsky D, et al. Cross-lingual dependency parsing based on distributed representations. Proceedings of the 53rd Annual Meeting of the Association for Computational Linguistics and the 7th International Joint Conference on Natural Language Processing (Volume 1: Long Papers), volume 1, 2015. 1234–1244.

[135] Shi T, Liu Z, Liu Y,et al. Learning cross-lingual word embeddings via matrix co-factorization. Proceedings of the 53rd Annual Meeting of the Association for Computational Linguistics and the 7th International Joint Conference on Natural Language Processing (Volume 2: Short Papers), volume 2 , 2015. 567–572.

[136] Soricut R, Ding N. Multilingual word embeddings using multigraphs. CoRR, 2016..

[关于转载]:本文为“AMiner”官网文章。转载本文请联系原作者获取授权,转载仅限全文转载并保留文章标题及内容,不得删改、添加内容绕开原创保护,且文章开头必须注明:转自“AMiner”官网。谢谢您的合作。

二维码 扫码微信阅读
推荐阅读 更多