所有文章 > 正文

自然语言理解的两种不同表示

作者: 姚沛然

时间: 2019-07-10 18:46

自然语言理解是在常见的任务驱动对话系统流水线中为后续模块进行预处理的一步,因此自然语言理解的质量对任务驱动对话系统的整体表现有很大的影响。

通常,自然语言理解需要将用户以某种自然语言给出的输入处理成两种不同的表示 [27] :第一种表示为语篇级别的表示,如领域及意图,对应的任务是意图(领域)识别或意图分类;第二种表示是词语级别的表示,对应的任务是命名实体识别或槽填充。

解决自然语言理解问题最简单也是最直接的办法是定义一些规则、进行模版匹配,在近期的对话系统相关工作中仍然有人使用这类方法 [5] 。当然,更多的研究使用了机器学习方法。

意图识别通常被建模为文本分类问题,在对话系统相关工作中使用过的经典机器算法包括支持向量机、最大期望算法、集成学习的 Boosting 算法等 [28] 。而距离现在更近一些的对话系统相关工作多使用一些更加前沿的机器学习算法,包括深度信念网络 [29] 、简单的深度神经网络(多层感知机)[30] 、长短期记忆模型及其变种 [31­-32] 等。

在对话系统领域之外,文本分类模型也是一个较为活跃的研究领域。Kim 首先提出了将卷积神经网络应用到句子分类中的方法 [33] :他将预先训练的词向量顺序排列,对相邻词的词向量进行二维卷积,在时间维度进行池化降维,最后用一层的全联接层进行输出。Zhang 等人同样利用卷积神经网络进行文本分类 [34] ,但他们的模型是字符级别而非词语级别的。Tang 等人使用门控循环单元(GRU)解决文本分类问题,并应用在情感分类领域 [35] 。Liu 等人率先使用循环神经网络的变体长短时记忆网络同时对包括文本分类在内的一系列任务进行建模,并在当时取得了业界最好的表现 [36] 。基于注意力机制的 Transformer 模型最初用于机器翻译任务 [37] ,但随后的基于 Transformer 的预训练模型 BERT 也可以在句子分类这一任务上取得当时的最好成绩 [38] 。另外,有多篇文章对这些文本分类进行了一系列的对比,包括 [39­-40] 等。

命名实体识别问题可被建模为序列标注问题。无论是命名实体识别问题还是序列标注问题,近期的大量方法都使用了双向长短期记忆模型­条件随机场(BiLSTM­CRF) 模型 [41­-44] 。其中,[43] 将卷积神经网络引入模型中,使用卷积神经网络学习输入句子中各单词在字符层面的表示。同样的,基于 Transformer 的预训练模型 BERT 也可用于命名实体识别,原作者的做法是在原始模型后加入单层线性分类器进行微调训练 [38] 。而在实际的对话系统中,较早的工作使用隐马尔可夫模型 [45] ,随后双向长短期记忆模型­条件随机场模型也被应用 [7]

由于数据量和计算能力的提升,最新的研究多直接使用长短时记忆网络直接进行序列标注 [22,32,46] 。另外,还一些研究者提出对意图识别和命名实体识别进行联合学习,使用的方法包括循环神经网络 [22,46] 及卷积神经网络 [7] 。然而,上文提到的用于自然语言理解的监督学习方法,无论使用何种模型,都受限于标注过的训练数据的数量,因此难以在数据匮乏的场景下达到很好的效果。

参考文献:

[5] Wei Z, Liu Q, Peng B, et al. Task-­oriented dialogue system for automatic diagnosis[C]//Proceedings of the 56th Annual Meeting of the Association for Computational Linguistics(Volume 2: Short Papers): volume 2. 2018: 201­207.

[7] Liu C, Xu P, Sarikaya R. Deep contextual language understanding in spoken dialogue systems[C]//Sixteenthannualconferenceoftheinternationalspeechcommunicationassociation. 2015.

[22] Chen Y N, Hakkani­Tür D, Tür G, et al. End­-to­-end memory networks with knowledge car­ryover for multi­turn spoken language understanding.[C]//Interspeech. 2016: 3245­3249.

[27] ChenH,LiuX,YinD,etal. A survey on dialogue systems: Recent advances and new frontiers[J]. Acm Sigkdd Explorations Newsletter, 2017, 19(2):25­35.

[28] Tur G, De Mori R. Spoken language understanding: Systems for extracting semantic infor­mation from speech[M]. John Wiley & Sons, 2011.

[29] Sarikaya R, Hinton G E, Ramabhadran B. Deep belief nets for natural language call ­routing[C]//2011IEEEInternationalconferenceonacoustics,speechandsignalprocessing(ICASSP).IEEE, 2011: 5680­5683.

[30] Tur G, Deng L, Hakkani­Tür D, et al. Towards deeper understanding: Deep convex net­works for semantic utterance classificatio[C]//2012 IEEE international conference on acous­tics, speech and signal processing (ICASSP). IEEE, 2012: 5045­5048.

[31] Ravuri S, Stolcke A. Recurrent neural network and lstm models for lexical utterance classifi­ cation[C]//Sixteenth Annual Conference of the International Speech Communication Associ­ation. 2015.

[32] Mensio M, Rizzo G, Morisio M. Multi­turn qa: A rnn contextual approach to intent classifica­tion for goal­oriented systems[C]//Companion of the The Web Conference 2018 on The WebConference 2018. International World Wide Web Conferences Steering Committee, 2018:1075­1080.

[33] Kim Y. Convolutional Neural Networks for Sentence Classification[C/OL]//Proceedings ofthe2014ConferenceonEmpiricalMethodsinNaturalLanguageProcessing(EMNLP). Doha,Qatar: Association for Computational Linguistics, 2014: 1746­1751[2019­03­25]. http://aclweb.org/anthology/D14­1181.

[34] Zhang X, Zhao J, LeCun Y. Character-­level convolutional networks for text classification[C]//Advances in neural information processing systems. 2015: 649­657.

[35] Tang D, Qin B, Liu T. Document modeling with gated recurrent neural network for senti­ment classification[C]//Proceedings of the 2015 conference on empirical methods in natural language processing. 2015: 1422­1432.

[36] Liu P, Qiu X, Huang X. Recurrent neural network for text classification with multi-­task learn­ing[C]//Proceedings of the Twenty­Fifth International Joint Conference on Artificial Intelli­gence. AAAI Press, 2016: 2873­2879.

[37] Vaswani A, Shazeer N, Parmar N, et al. Attention is all you need[C]//Advances in neuralinformation processing systems. 2017: 5998­6008.

[38] Devlin J, Chang M W, Lee K, et al. Bert: Pre­training of deep bidirectional transformers forlanguage understanding[J]. arXiv preprint arXiv:1810.04805, 2018.

[39] YinW,KannK,YuM,etal. Comparative study of cnn and rnn for natural language processing[J]. arXiv preprint arXiv:1702.01923, 2017.

[40] Trofimovich J. Comparison of neural network architectures for sentiment analysis of russian tweets[C]//Computational Linguistics and Intellectual Technologies: Proceedings of the Inter­national Conference Dialogue. 2016.

[41] Zhou J, Xu W. End-­to­-end learning of semantic role labeling using recurrent neural networks [C]//Proceedingsofthe53rdAnnualMetingoftheAssociationforComputationalLinguisticsand the 7th International Joint Conference on Natural Language Processing (Volume 1: LongPapers): volume 1. 2015: 1127­1137.47

[43] MaX,HovyE. End­-to­-end sequence labeling via bi­directional lstm­-cnns­-crf[C]//Proceedings of the54thAnnualMeetingoftheAssociationforComputationalLinguistics(Volume1: Long Papers): volume 1. 2016: 1064­1074.

[44] Lample G, Ballesteros M, Subramanian S, et al. Neural architectures for named entity recog­nition[C]//Proceedings of NAACL­HLT. 2016: 260­270.

[45] Bhargava A, Celikyilmaz A, Hakkani­Tür D, et al. Easy contextual intent prediction and slot detection[C]//2013 IEEE International Conference on Acoustics, Speech and Signal Process­ing. IEEE, 2013: 8337­8341.

[46] Hakkani­Tür D, Tür G, Celikyilmaz A, et al. Multi­domain joint semantic frame parsing usingbi­directional rnn­lstm.[C]//Interspeech. 2016: 715­719.

[关于转载]:本文为“AMiner”官网文章。转载本文请联系原作者获取授权,转载仅限全文转载并保留文章标题及内容,不得删改、添加内容绕开原创保护,且文章开头必须注明:转自“AMiner”官网。谢谢您的合作。

二维码 扫码微信阅读
推荐阅读 更多