所有文章 > 正文

《强化学习周刊》第21期:EMNLP 2020-2021强化学习的最新研究与应用

作者: 智源社区

浏览量: 410

时间: 2021-09-26 07:30

强化学习作为人工智能领域研究热点之一,其研究进展与成果也引发了众多关注。并且诸多研究成果发表于EMNLP 2020-2021学术会议中,为帮助研究与工程人员了解该领域的相关进展和资讯,智源社区结合领域内容,撰写为第21期《强化学习周刊》。本期周刊整理了EMNLP 2020-2021中强化学习领域相关的最新论文推荐和新工具等,以飨诸位。

文章来源:智源社区

关于周刊

强化学习作为人工智能领域研究热点之一,其研究进展与成果也引发了众多关注。并且诸多研究成果发表于EMNLP 2020-2021学术会议中,为帮助研究与工程人员了解该领域的相关进展和资讯,智源社区结合领域内容,撰写为第21期《强化学习周刊》。本期周刊整理了EMNLP 2020-2021中强化学习领域相关的最新论文推荐和新工具等,以飨诸位。

周刊采用社区协作的模式产生,欢迎感兴趣的朋友们参与我们的工作,一起来推动强化学习社群的分享、学习和交流活动。可以扫描文末的二维码加入强化学习社区群。

本期贡献者:李明,刘青、小胖

论文推荐


强化学习近年来取得了令人瞩目的成就,其应用于各个领域的研究也取得较大的进步。人智能顶会EMNLP 2020-2021对强化学习取得了一系列瞩目的进展进行了发布,比如基于梯度模拟强化学习的低资源关系抽取、基于时间知识图预测的强化学习、基于细粒度评估指导强化学习的关键短语生成、基于强化学习的多段阅读理解交互式小说游戏 、通过强化学习进行文档级神经机器翻译的动态上下文选择相关的理论及其最新应用等。

本次推荐了14篇EMNLP 2021强化学习领域的相关论文,主要涉及基于梯度模拟强化学习的低资源关系抽取、基于时间知识图预测的强化学习、基于协同训练的无监督对话分离、基于细粒度评估指导强化学习的关键短语生成、数据增强:通过强化学习指导条件生成的文本数据增强、重新思考面向任务的对话系统中的监督学习和强化学习、通过元强化学习的少样本复杂知识库问答 、具有最大边际的多文档摘要相关性引导的强化学习 、基于强化学习的多段阅读理解交互式小说游戏 、通过强化学习进行文档级神经机器翻译的动态上下文选择等。

标题:Gradient Imitation Reinforcement Learning for Low Resource Relation Extraction(基于梯度模拟强化学习的低资源关系抽取)

简介:低资源关系提取(LRE)旨在在人类注释稀缺的情况下,从有限的标记语料库中提取关系事实。现有研究要么利用自训练方案来生成会导致逐渐漂移问题的伪标签,要么利用不明确征求反馈的元学习方案。为了缓解由于现有 LRE 学习范式中缺乏反馈循环而导致的选择偏差,本文提出了一种梯度模仿强化学习方法,以鼓励伪标签数据模仿标签数据的梯度下降方向,并通过反复试验来引导其优化能力。此外,本文还提出了一个名为 GradLRE 的框架,该框架处理低资源关系提取中的两个主要场景。除了无标签数据足够的场景,GradLRE 通过利用上下文增强方法来生成数据来处理没有未标记数据可用的情况。与基线相比,通过两个公共数据集的实验研究结果证明了 GradLRE 在低资源关系提取方面的有效性。

论文链接:https://www.aminer.cn/pub/614164545244ab9dcb9dd921

标题:TimeTraveler: Reinforcement Learning for Temporal Knowledge Graph Forecasting(TimeTraveler:基于时间知识图预测的强化学习)

简介:时间知识图(TKG)推理是近年来引起越来越多研究兴趣的一项关键任务。现有的大多数方法都侧重于对过去时间戳进行推理以完成缺失的事实,而在已知 TKG 上进行推理以预测未来事实的工作很少。与完成任务相比,预测任务更加困难,面临两个主要挑战:(1)如何有效地对时间信息进行建模以处理未来的时间戳?(2) 如何进行归纳推理来处理随时间出现的先前看不见的实体?为了应对这些挑战,本文提出了第一种用于预测的强化学习方法。具体来说,智能体在历史知识图快照上旅行以搜索答案。该方法定义了一个相对时间编码函数来捕获时间跨度信息,并设计了一种基于狄利克雷分布的新颖的时间型奖励来指导模型学习。此外,本文还提出了一种新的不可见实体表示方法,以提高模型的归纳推理能力。通过在未来的时间戳评估本文用于此链接预测任务的方法。与现有的最先进方法相比,在四个基准数据集上的大量实验证明了显着的性能改进,同时具有更高的可解释性、更少的计算和更少的参数。

论文链接:https://www.aminer.cn/pub/613accd55244ab9dcb416802

标题:Unsupervised Conversation Disentanglement through Co-Training(基于协同训练的无监督对话分离)

简介:对话分离旨在将混合的消息分离成分离的会话,这是理解多方对话的一项基本任务。现有的对话解开工作在很大程度上依赖于人工标注的数据集,在实践中获得这些数据集的成本很高。本文通过探索在不参考任何人工注释的情况下训练对话分离模型。该方法建立在深度协同训练算法之上,该算法由两个神经网络组成:消息对分类器和会话分类器。前者负责检索两个消息之间的本地关系,而后者通过捕获上下文感知信息将消息分类为会话。两个网络分别使用从未注释语料库构建的伪数据进行初始化。在深度协同训练过程中,本文使用会话分类器作为强化学习组件,通过最大化消息对分类器给出的局部奖励来学习会话分配策略。对于消息对分类器,通过从会话分类器预测的解开会话中以高置信度检索消息对来丰富其训练数据。在大型电影对话数据集上的实验结果表明,与之前的监督方法相比,本文提出的方法实现了有竞争力的性能。进一步的实验表明,预测的分离对话能够提高多方响应选择下游任务的性能。

论文链接:https://www.aminer.cn/pub/613829e95244ab9dcb15f30b

标题:Keyphrase Generation with Fine-Grained Evaluation-Guided Reinforcement Learning(基于细粒度评估指导强化学习的关键短语生成)

简介:本文旨在生成一组关键短语,关键短语生成 (KG) 是从给定文档中捕获中心思想的经典任务。基于 Seq2Seq 模型,之前的 KG 任务强化学习框架利用评估指标来进一步改进训练有素的神经模型。然而,这些KG评估指标F1@5及F1@M我们只知道短语层面上预测的确切正确性,而忽略了相似预测和目标之间的语义相似性,这阻碍了模型学习深层语言模式。针对这个问题,本文提出了一种新的细粒度评估指标来改进 RL 框架,它考虑了不同的粒度:token-levelF1得分、编辑距离、重复和预测数量。总的来说,新框架包括两个奖励函数:细粒度的评估分数和香草F1分数。该框架帮助模型识别一些部分匹配短语,这些短语可以进一步优化为完全匹配的短语。在 KG 基准上的实验表明,本文提出的训练框架在所有评估分数中都优于之前的 RL 训练框架。此外,该方法方法可以有效地缓解同义词问题并生成更高质量的预测。

论文链接:https://www.aminer.cn/pub/608001fd91e011772654f77e

标题:DORB: Dynamically Optimizing Multiple Rewards with Bandits(DORB:使用 Bandits 动态优化多重奖励)(EMNLP2020)

简介:基于策略梯度的强化学习已被证明是一种直接优化语言生成任务的不可微评估指标的有前途的方法。然而,针对特定指标奖励的优化只会导致该指标的改进,这表明该模型正在以特定方式博弈该指标的制定,而通常没有实现真正的质量改进。因此,使模型联合优化多个不同的度量奖励更有利。在本文的工作中,通过多臂老虎机方法 (DORB) 同时自动优化多个指标奖励,其中在每一轮中,老虎机根据预期的手臂收益选择下一个要优化的指标奖励。对老虎机使用 Exp3 算法,并为老虎机奖励制定了两种方法:(1)单多奖励老虎机(SM-Bandit);(2)分层多奖励强盗(HM-Bandit)。通过各种自动指标和人工评估在两个重要的 NLG 任务上凭经验证明了方法的有效性。

论文链接:https://www.aminer.cn/pub/5f7fe6d80205f07f689731c4

标题:Data Boost: Text Data Augmentation Through Reinforcement Learning Guided Conditional Generation(数据增强:通过强化学习指导条件生成的文本数据增强)(EMNLP2020)

简介:数据扩充在许多NLU任务中被证明是有效的,特别是对于那些数据匮乏的任务。在本文中,提出了一个功能强大且易于部署的文本增强框架Data Boost,它通过强化学习引导的条件生成来增强数据。在五种不同的分类器架构下评估了三种不同文本分类任务的数据增强。结果表明,数据增强可以提高分类器的性能,尤其是在低资源数据情况下。例如,当只提供整个训练数据的10%时,Data Boost将这三项任务的F1平均提高8.7%。还比较了数据增强和六种先前的文本增强方法。通过人工评估(N=178),确认数据增强在可读性和类一致性方面与原始数据具有相当的质量。

论文链接:https://www.aminer.cn/pub/5f7fe6d80205f07f689731a4

标题:Bootstrapped Q-learning with Context Relevant Observation Pruning to Generalize in Text-based Games (基于文本的游戏中具有上下文相关观察修剪的自举Q-学习的推广)(EMNLP2020)

简介:本文表明,用于解决基于文本的游戏 (TBG) 的强化学习 (RL) 方法通常无法概括未见过的游戏,尤其是在小数据机制中。为了解决这个问题,本文提出了上下文相关的情节状态截断(CREST),用于去除观察文本中的不相关标记,以提高泛化能力。该方法首先使用 Q-learning 训练基本模型,这通常会过度拟合训练游戏。基本模型的动作标记分布用于执行移除不相关标记的观察修剪。然后在修剪后的观察文本上重新训练第二个自举模型。自举代理在解决看不见的 TextWorld 游戏方面表现出改进的泛化能力,尽管需要较少的训练集,但与之前最先进的方法相比,使用的训练游戏减少了 10 到 20 倍。

论文链接:https://www.aminer.cn/pub/5f71a7c191e011e26794cb93

标题:Rethinking Supervised Learning and Reinforcement Learning in Task-Oriented Dialogue Systems(重新思考面向任务的对话系统中的监督学习和强化学习)(EMNLP2020)

简介:面向任务的对话系统的对话策略学习最近取得了很大进展,主要是通过采用强化学习方法。然而,这些方法已经变得非常复杂。是时候重新评估它了。在仅基于强化学习开发对话代理方面取得进展吗?本文展示了如何使用 (1)~传统监督学习和 (2)~一种无模拟器的对抗性学习方法来实现与最先进的基于 RL 的方法相当的性能。首先,引入了一个简单的对话动作解码器来预测适当的动作。然后,通过添加密集层来扩展对话策略学习的传统多标签分类解决方案,以提高对话代理的性能。最后,使用 Gumbel-Softmax 估计器在不使用强化学习的情况下交替训练对话代理和对话奖励模型。基于广泛的实验,得出结论,所提出的方法可以以更少的努力实现更稳定和更高的性能,例如设计用户模拟器所需的领域知识和强化学习中棘手的参数调整。我们的主要目标不是用监督学习打败强化学习,而是展示重新思考强化学习和监督学习在优化面向任务的对话系统中的作用的价值。

论文链接:https://www.aminer.cn/pub/5f69e55591e011a2f0270988

标题:Few-Shot Complex Knowledge Base Question Answering via Meta Reinforcement Learning(通过元强化学习的少样本复杂知识库问答)(EMNLP2020)

简介:复杂问答 (CQA) 涉及在知识库 (KB) 上回答复杂的自然语言问题。然而,当问题具有不同类型时,传统的神经程序归纳 (NPI) 方法表现出不均匀的性能,具有固有的不同特征,例如难度级别。本文提出了一种元强化学习方法,用于 CQA 中的程序归纳,以解决问题中潜在的分布偏差。本文方法根据从训练数据中检索到的最相似的问题,快速有效地使元学习程序员适应新问题。然后使用元学习策略来学习一个好的编程策略,利用试验轨迹及其对支持集中类似问题的奖励。本文的方法在 CQA 数据集 (Saha et al., 2018) 上实现了最先进的性能,同时对每个支持集中检索到的前 5 个问题仅使用了五个试验轨迹,并对仅从 1% 构建的任务进行了元训练的训练集。本文代码已经在 https://github.com/DevinJake/MRL-CQA 发布。

论文链接:https://www.aminer.cn/pub/5f7fe6d80205f07f689731ef

标题:Multi-document Summarization with Maximal Marginal Relevance-guided Reinforcement Learning(具有最大边际的多文档摘要相关性引导的强化学习)(EMNLP2020)

简介:虽然神经序列学习方法在单文档摘要 (SDS) 方面取得了重大进展,但它们在多文档摘要 (MDS) 上产生的结果并不令人满意。在将 SDS 改进应用于 MDS 时,存在两个主要挑战:(1)MDS 涉及更大的搜索空间和更有限的训练数据,这为神经方法学习足够的表示设置了障碍;(2) MDS 需要解决源文档之间更高的信息冗余,SDS 方法处理的效率较低。为了缩小差距,本文提出了用于 MDS 的 RL-MMR,用于 MDS 的最大边际相关性指导的强化学习,它统一了经典 MDS 中使用的高级神经 SDS 方法和统计度量。RL-MMR 将 MMR 指导投向较少有希望的候选者,这限制了搜索空间,从而导致更好的表示学习。此外,MMR 中的显式冗余度量有助于摘要的神经表示以更好地捕获冗余。大量实验表明,RL-MMR 在基准 MDS 数据集上实现了最先进的性能。特别是,本文展示了在将 SDS 适应 MDS 时在学习有效性和效率方面将 MMR 纳入端到端学习的好处。

论文链接:https://www.aminer.cn/pub/5f76f15091e011f31b98055c

标题:Knowledge-guided Open Attribute Value Extraction with Reinforcement Learning(知识引导的开放属性值提取与强化学习)(EMNLP2020)

简介:新兴实体的开放属性值提取是一项重要但具有挑战性的任务。许多以前的工作将问题表述为 \textit{question-answering} (QA) 任务。虽然来自网络语料库的文章集合提供了有关新兴实体的更新信息,但检索到的文本可能是杂乱的、不相关的,从而导致不准确的答案。有效过滤杂乱的文章以及不好的答案是提高提取准确率的关键。知识图 (KG) 包含有关实体的丰富、组织良好的信息,为应对挑战提供了很好的资源。在这项工作中,本文提出了一个知识引导的强化学习 (RL) 框架,用于开放属性值提取。通过KG的相关知识告知,本文训练了一个深度 Q 网络来顺序比较提取的答案,以提高提取的准确性。所提出的框架适用于不同的信息提取系统。实验结果表明,本文的方法优于基线 16.5 - 27.8\%。

论文链接:https://www.aminer.cn/pub/5f7fe6d80205f07f68973247

标题:Human-centric dialog training via offline reinforcement learning(通过离线强化学习进行以人为中心的对话训练)(EMNLP2020)

简介:如何通过从人类反馈中学习来训练对话模型以产生更好的对话,而不会有人类教给它有害的聊天行为的风险?本文首先在线托管模型,然后从实时、开放式对话中收集人类反馈,然后使用离线强化学习 (RL) 来训练和改进模型。本文识别隐含的对话线索,包括语言相似性、引发笑声、情绪等,这些线索表明人类的积极反馈,并将这些嵌入到多个奖励函数中。一个众所周知的挑战是,在离线环境中学习 RL 策略通常会由于缺乏探索能力和对未来奖励做出过度乐观估计的倾向而失败。当将 RL 用于语言模型时,这些问题变得更加困难,它很容易有 20,000 个动作词汇和许多可能的奖励函数。本文通过开发一类新颖的离线 RL 算法来解决这一挑战。这些算法使用 KL 来控制惩罚与预先训练的先验语言模型的分歧,并使用新策略使算法在面对不确定性时变得悲观而不是乐观。本文在开放域设置中使用 80 个用户的评分测试了生成的对话模型,发现它与现有的深度离线 RL 方法相比,取得了显著的改进。新颖的离线 RL 方法可用于使用人类反馈的静态数据集改进任何现有的生成对话模型。

论文链接:https://www.aminer.cn/pub/5f7fe6d80205f07f68973211

标题:Interactive Fiction Game Playing as Multi-Paragraph Reading Comprehension with Reinforcement Learning(基于强化学习的多段阅读理解交互式小说游戏)(EMNLP2020)

简介:具有真实人类编写的自然语言文本的交互式小说 (IF) 游戏为语言理解技术提供了一种新的自然评估。与以前主要使用合成文本的文本游戏相比,IF 游戏对多样化和复杂的游戏世界的人工文字描述提出了语言理解挑战,并在较少限制的组合空间中对动作命令生成提出了语言生成挑战。本文们采用了 IF 游戏解决的新视角,并将其重新制定为多段阅读理解 (MPRC) 任务。本文的方法利用 MPRC 中的上下文查询注意机制和结构化预测来有效地生成和评估动作输出,并应用以对象为中心的历史观察检索策略来减轻文本观察的部分可观察性。在最近的 IF 基准 (Jericho) 上进行的大量实验表明,与所有以前的方法相比,本文的方法在实现高获胜率和低数据要求方面具有明显优势。

本文的源代码位于:https://github.com/XiaoxiaoGuo/rcdqn

论文链接:https://www.aminer.cn/pub/5f7d8dfb91e011346ad27d6b

标题:Dynamic Context Selection for Document-level Neural Machine Translation via Reinforcement Learning(通过强化学习进行文档级神经机器翻译的动态上下文选择)(EMNLP2020)

简介:文档级神经机器翻译已经产生了有吸引力的改进。然而,大多数现有方法大致使用固定范围内的所有上下文句子。他们忽略了不同的源语句需要不同大小的上下文这一事实。为了解决这个问题,本文提出了一种选择动态上下文的有效方法,以便文档级翻译模型可以利用更有用的选定上下文句子来产生更好的翻译。具体来说,本文引入了一个独立于翻译模块的选择模块来对每个候选上下文句子进行评分。然后,本文提出了两种策略来明确选择可变数量的上下文句子并将它们输入翻译模块。通过强化学习端到端地训练这两个模块,并提出了一种新颖的奖励来鼓励动态上下文句子的选择和利用。实验表明,本文的方法可以为不同的源句子选择自适应上下文句子,并显著提高了文档级翻译方法的性能。

论文链接:https://www.aminer.cn/pub/5f7fe6d80205f07f689731c9


新工具

ReGen:使用预训练语言模型生成文本和知识库的强化学习

简介:从文本中自动构建相关知识库(KBs)以及从KBs中生成语义上有意义的文本都是机器学习的长期目标。本文介绍了ReGen,这是一种利用强化学习 (RL) 来提高性能的双向文本和图形生成方法。图线性化使本文能够将两个任务重新构建为序列到序列的生成问题,而不管生成方向如何,这反过来允许使用强化学习进行序列训练,其中模型本身被用作其自身的批评家,从而导致自临界序列训练(SCST)。本文通过广泛调查,证明了通过SCST使用RL有利于WebNLG+2020和TekGen数据集上的图形和文本生成。本文的系统通过显著改进WebNLG 2020+挑战发布的文本到图形和图形到文本生成任务的结果,在WebNLG+2020上展示了最优的结果。

论文链接:https://www.aminer.cn/pub/612d9dc35244ab9dcbdfa1d4

扫码微信阅读
[关于转载]:本文转载于智源社区,仅用于学术分享,有任何问题请与我们联系:report@aminer.cn。