所有文章 > 正文

用元学习的方法解决低资源的问题的CMAML

作者: AITIME论道

时间: 2021-08-04 19:12

论文标题:Learning to Customize Model Structures for Few-shot Dialogue Generation Tasks

论文链接:https://www.aminer.cn/pub/5ec49a639fced0a24b4de849

image-cF7Y2qqs8w.png

1、背景知识

1)Few-shot Text Generation应用场景

  • 冷启动
  • 多语言
  • 个性化对话
  • 情感对话

讲者主要针对的就是在个性化对话和情感对话的研究工作。

2)元学习的常见三种方法

  • 基于度量 metric-based:学习核变换参数
  • 基于模型 model-based:一次性输入数据,学习1个模型的参数
  • 基于优化 optimization-based:学习元模型参数

3)MAML特点:

MAML的目标是在应用于新任务时,通过最大化损失函数的灵敏度来找到模型参数的初始化。对于一个目标任务,它的对话模型是通过使用特定于任务的训练样本微调是来自MAML的初始参数获得。

生成式对话模型的目标是构建一个函数,将用户查询映射到它的回复,其中函数由模型结构和参数决定。

MAML仅从参数优化的角度搜索最佳参数设置,而忽略了从结构优化的角度搜索最佳网络结构。

2、研究目标

基于以上分析,研究的目的是如何调整MAML以适应更大的模型多样性。

讲者及其团队设定了三个目标:

第一,为所有具有不同网络结构和参数的任务定制模型。

第二,每个任务独特的模型结构能够记忆任务特征。

第三,与MAML相比,不需要额外的训练数据。

因此,讲者及其研究团队提出了CMAML,它本质上是一个文本生成模型seq2SPG。

image-EFkBMjOJKK.png

3、构建对话模型的网络结构——seq2SPG

对于每个任务,相应的生成模型由三部分组成:共享模块、私有模块和门控模块。

1)共享模块:是一个传统的seq2seq,旨在学习一般的生成能力,该模块在任务间共享。

2)私有模块:存储独特的特征,所有的任务都从seq2seq解码器中的同一个mlp开始,然后在训练过程中演化成不同的结构。

3)门控模块:用于平衡前两个模块的贡献,它也在任务之间共享。

4、训练方法

训练过程分为两个阶段:预训练和定制模型训练。

1)在预培训中,CMAML使用普通的MAML获得一个预训练的对话模型作为所有任务的初始模型,然后讲元训练和元测试交替进行。目前,不同任务的模型具有相同的网络结构和参数。

2)定制模型训练中,共有两个阶段。

第一,对私有模块,使用私有网络剪枝算法来区分每个任务的MLP结构。

第二,再次使用MAML重新训练每个任务的所有三个模块的参数。在这个阶段,私有模块是一个修剪过的MLP结构。

image-QAQDJMRHQ1.png

5、实验数据和模型

在两个数据集上进行实验,Persona-chat和MojiTalk。

在Persona-chat中,把为用户建立对话模型视为一项任务。

在mojitalk中,把用cemoji生成响应视为一项任务。

使用4种类型的Competing Methods:

1)Pretrain-Only

预训练仅表示用来自所有训练任务的数据预训练一个统一的对话生成模型,然后直接在测试任务上测试它。

2)Fine-tune

微调是用特定于任务的数据来微调统一模型。

3)MAML

在两个基础模型上应用MAML,主要使用了传统的seq2seq和讲者团队提出的seq2SPG。

4)CMAML

采用CMAML算法的两种变体,CMAML-Seq2SP’G和CMAML-Seq2SPG。

6、评估指标

主要使用了四种评估指标:

image-RFKkxKT8v7.png

1)通过评估回复的质量和多样性,以及语义和情感的一致性,衡量模型生成的句子的是否准确。

2)为了验证每种方法对不同任务之间的模型差异,定义了它的三个参数:

diff score 是成对任务的平均模型差异。

Δscore是微调前后方法的模型差异。

Ti和Tj之间的模型差异是将计算参数之间的欧几里德距离将其归一化。

3)除此之外,还使用了人为评估的方法。

7、实验结果

image-EtE3fDmETj.png

image-Wuf7tvbUNj.png

整体结果表明,微调方法比仅预训练更好,MAML方法在BLEU分数上没有比微调方法更好的表现,但是具有相对较高的Dist-1分数。这表明MAML有助于促进反应的多样性。

image-0xfTRRtTVy.png

image-kmaHcV9Vmb.png

在不同的场景设置中进行评估:

由左图表明,对于非基于MAML的方法,任务一致性不会随着数据的增长而提高。

而对于基于MAML的方法,句子质量和任务一致性都随着数据的增长而增加。

由右图表明,当任务不太相似时,基于MAML的方法表现更好。

8、结论

讲者在研究报告中提出的算法CMAML可以为任务定制模型,其中每个任务具有唯一的网络结构和参数,并且在生成任务中只需要一个或两个数百个训练样本。

每个任务独特的结构能够记忆其特征,相似的任务从模型结构的角度共享训练数据。

CMAML是通用的,并且很好地统一以适应各种few-shot的生成场景。

推荐阅读 更多