AMR文本生成的数据扩充方法

Computer Engineering(2022)

引用 0|浏览7
暂无评分
摘要
在抽象语义表示(AMR)文本生成过程中,AMR图到文本形式的转换在很大程度上受语料规模的影响.提出一种简单有效的动态数据扩充方法,在已标注数据集规模有限的情况下提高AMR文本生成性能.将AMR文本生成模型解码端视作一个语言模型,使用单词级别的扩充方法,通过动态地对目标端单词进行随机替换,得到带噪声的数据,从而增强模型的泛化能力.在加载数据时,随机选择目标句子中的部分单词做噪声化处理,利用约束编码器预测被覆盖的单词并还原出原始语句,使模型具有更深层的语言表征能力.基于AMR2.0和AMR3.0英文标准数据集进行实验,结果表明,该方法可有效提升AMR文本生成系统性能,与未引入噪声的基准Transformer模型相比,能够获得更优的BLEU、Meteor和chrF++指标,其中BLEU值在人工标注语料场景下分别提升0.68和0.64,且在大规模自动标注语料场景下也能提升0.60和0.68.
更多
AI 理解论文
溯源树
样例
生成溯源树,研究论文发展脉络
Chat Paper
正在生成论文摘要