所有文章 > 正文

《强化学习周刊》第22期:ICRA 2021-2022强化学习的最新研究与应用

作者: 智源社区

浏览量: 702

时间: 2021-10-18 07:49

强化学习作为人工智能领域研究热点之一,其研究进展与成果也引发了众多关注。并且诸多研究成果发表于ICRA 2021-2022学术会议中,为帮助研究与工程人员了解该领域的相关进展和资讯,智源社区结合领域内容,撰写为第22期《强化学习周刊》。本期周刊整理了ICRA 2021-2022中强化学习领域相关的最新论文推荐和新工具等,以飨诸位。

文章来源:智源社区

强化学习作为人工智能领域研究热点之一,其研究进展与成果也引发了众多关注。并且诸多研究成果发表于ICRA 2021-2022学术会议中,为帮助研究与工程人员了解该领域的相关进展和资讯,智源社区结合领域内容,撰写为第22期《强化学习周刊》。本期周刊整理了ICRA 2021-2022中强化学习领域相关的最新论文推荐和新工具等,以飨诸位。

周刊采用社区协作的模式产生,欢迎感兴趣的朋友们参与我们的工作,一起来推动强化学习社群的分享、学习和交流活动。可以扫描文末的二维码加入强化学习社区群。

本期贡献者:李明,刘青,刘元,小胖

论文推荐

强化学习近年来取得了令人瞩目的成就,其应用于各个领域的研究也取得较大的进步。人工智能顶会ICRA 2021-2022对强化学习取得了一系列瞩目的进展进行了发布,比如将强化学习应用于规划、控制和仿真的实时联合概率交通预测、高效强化学习样本、基于模型的元强化学习、基于对抗增强学习进行领域自适应的混合模拟器识别、基于深度强化学习加速机器人技能、Recovery RL相关的理论及其最新应用等。


本次推荐了16篇ICRA 2021-2022强化学习领域的相关论文,主要涉及基于强化学习应用于规划、控制和仿真的实时联合概率交通预测、基于激光雷达的端到端自动驾驶与对比深度强化学习、基于鲁棒自监督深度强化学习的多模态互信息 (MuMMI) 训练、基于模型集成探索与开发的高效强化学习样本、基于多任务学习实现无重置强化学习:在无需人工干预的情况下学习灵巧的操作行为、具有悬浮有效载荷的基于模型的元强化学习、SimGAN:通过对抗增强学习进行领域自适应的混合模拟器识别、模型预测演员-评论家:通过深度强化学习来加速机器人技能的获得、Recovery RL:通过学习的恢复区域进行安全强化学习等。

标题:PredictionNet: Real-Time Joint Probabilistic Traffic Prediction for Planning, Control, and Simulation(PredictionNet:用于规划、控制和仿真的实时联合概率交通预测)

简介:预测交通代理的未来运动对于安全高效的自主驾驶至关重要。为此,本文提出了PredictionNet,这是一种深度神经网络(DNN),用于预测所有周围交通智能体的运动以及ego车辆的运动。所有预测都是概率性的,并以简单的自上而下光栅化表示,该光栅化允许任意数量的智能体。以具有车道信息的多层地图为条件,网络在单次传递中联合输出所有智能体(包括ego车辆)的未来位置、速度和回溯向量。然后从输出中提取轨迹。该网络可以用来模拟真实的流量,并在流行的基准上产生有竞争力的结果。通过将其与运动规划/控制子系统相结合,它已被用于成功控制数百公里的真实世界车辆。该网络在嵌入式GPU上的运行速度比实时速度快,并且由于选择了输入表示,该系统显示出良好的泛化(跨感官模式和位置)。此外,本文还证明了通过使用强化学习(RL)扩展DNN,它可以更好地处理罕见或不安全的事件,例如攻击性机动和碰撞。

论文链接:https://www.aminer.cn/pub/616d206a6750f84ef29b03fe

标题:Carl-Lead: Lidar-based End-to-End Autonomous Driving with Contrastive Deep Reinforcement Learning(Carl-Lead:基于激光雷达的端到端自动驾驶与对比深度强化学习)

简介:在不受管制的十字路口的城市人群中自动驾驶具有挑战性,应仔细考虑动态遮挡和其他车辆的不确定行为。传统方法是启发式的,基于手工设计的规则和参数,但在新情况下的扩展性很差,在所有可预见的场景中,它们都需要高昂的人力成本来设计和维护规则。深度强化学习(DRL)在城市驾驶场景中显示出有希望的前景。然而,DRL 是样本效率低下的,且先前的大多数研究都假设完美的观察结果,例如地面真实位置和车辆的运动,而没有考虑噪声和遮挡,这对于策略部署来说可能是一个过于强硬的假设。本文使用 DRL 来训练基于激光雷达的端到端驾驶策略,这些策略自然会考虑不完美的部分观察。通过进一步使用无监督的对比表示学习作为辅助任务来提高样本效率。比较评估结果表明,该方法比最先进的(SOTA)基于激光雷达的端到端驱动网络实现了更高的成功率,比精心调整的基于规则的方法在安全性和效率之间取得了更好的权衡,并且比基线更好地推广到新场景。

论文链接:https://www.aminer.cn/pub/6147fba55244ab9dcb1b54e9

标题:Multi-Modal Mutual Information (MuMMI) Training for Robust Self-Supervised Deep Reinforcement Learning(基于鲁棒自监督深度强化学习的多模态互信息 (MuMMI) 训练)

简介:该工作重点使用了多个可能不可靠的传感器来学习有用且强大的深度世界模型。本文发现当前的方法不足以鼓励模态之间的共享表示;这可能会导致下游任务的性能不佳以及过度依赖特定传感器。作为解决方案,本文提出了新的多模态深度潜在状态空间模型,使用互信息下界进行训练。关键创新是一个特别设计的密度比估计器,它鼓励每种模式的潜在代码之间的一致性。将该方法在多模态自然 MuJoCo 基准和具有挑战性的 Table Wiping 任务上学习策略(以自我监督的方式)。实验表明了该方法明显优于最先进的深度强化学习方法,尤其是在缺少观察的情况下。

论文链接:https://www.aminer.cn/pub/60e563fcdfae54c432543fdd

标题:Sample Efficient Reinforcement Learning via Model-Ensemble Exploration and Exploitation(基于模型集成探索与开发的高效强化学习样本)

简介:基于模型的深度强化学习在需要高样本效率的各个领域取得了成功,例如围棋和机器人技术。然而,其仍然存在一些问题,例如规划有效的探索以学习更准确的动态模型、评估学习模型的不确定性以及更合理地利用模型。为了缓解这些问题,本文提出了 MEEE,一种由乐观探索和加权开发组成的模型集成方法。文中的智能体首先生成一组动作候选,然后寻找兼顾预期回报和未来观察新颖性的最佳动作。根据模型的不确定性,将不同的折扣权重分别分配给想象的过渡元组,以防止模型预测误差在agent训练中的传播。在几个具有挑战性的连续控制基准任务的实验表明,该方法优于其他无模型和基于模型的最先进方法,尤其是在样本复杂性方面。

论文链接:https://www.aminer.cn/pub/60e436d5dfae54001623bfcd

标题:Reset-Free Reinforcement Learning via Multi-Task Learning: Learning Dexterous Manipulation Behaviors without Human Intervention(基于多任务学习实现无重置强化学习:在无需人工干预的情况下学习灵巧的操作行为)

简介:强化学习 (RL) 算法原则上可以通过从现实世界中通过反复试验收集的大量数据中学习来获得复杂的机器人技能。然而,大多数 RL 算法使用精心设计的设置来收集数据,需要人工监督和干预以提供情景重置。本文适当选择多任务RL设置实际上减轻了无重置学习挑战,并且所需的额外机器最少。并且解决多任务问题可以直接解决无重置问题,因为不同的任务组合可以用于为其他任务执行重置。通过一起学习多个任务并适当地对其进行排序,可以有效地一起学习所有任务而无需重置。而多任务学习可以有效地将无重置学习方案扩展到更复杂的问题。本文通过简单的多任务学习方案来解决无重置学习问题,并展示了其在无需任何显式重置的情况下学习解决硬件和模拟中复杂的灵巧操作任务的有效性。研究结果表明在没有任何人工干预的情况下使用 RL 在现实世界中学习灵巧操作行为的能力。

论文链接:https://www.aminer.cn/pub/6082a0e891e0118612e3f5cf

标题:DisCo RL: Distribution-Conditioned Reinforcement Learning for General-Purpose Policies(DisCo RL:针对通用政策的有条件分配强化学习)

简介:是否可以使用强化学习来学习可以执行各种不同任务,产生灵活且可重复使用的技能的通用策略?上下文策略原则上提供了此功能,但是上下文的表示方式决定了概括性和表达性。分类上下文无法将其推广到全新的任务。目标条件策略可以实现某种概括,但不能捕获可能需要的所有任务。本文提出目标分布作为适合上下文策略的通用且广泛适用的任务表示。分配类别的特定选择使我们可以权衡表达能力和可学习性。本文通过分配条件强化学习(DisCo RL)的非策略算法,以有效地学习这些策略。对各种机器人操纵任务进行了DisCo RL评估,发现对于需要归纳到新目标分布的任务,DisCo RL明显优于以前的方法。

论文链接:https://www.aminer.cn/pub/604f1e079e795e5feaac5514

标题:Reinforcement Learning for Robust Parameterized Locomotion Control of Bipedal Robots(双足机器人鲁棒参数化运动控制的强化学习)

简介:为双足机器人开发健壮的行走控制器是一项艰巨的任务。传统的基于模型的运动控制器需要简化假设并进行仔细建模。任何小错误都会导致控制不稳定。为了解决两足动物运动的这些挑战,本文提出了一种无模型的强化学习框架,用于在仿真中训练鲁棒的运动策略,然后可以将其转移到真正的两足动物Cassie机器人中。为了促进从模拟到真实的传输,使用域随机化来鼓励策略学习对系统动态变化具有鲁棒性的行为。所学习的策略使Cassie能够执行一组多样化的动态行为,同时比传统的控制器和使用残差控制的基于学习的现有方法更为强大。

论文链接:https://www.aminer.cn/pub/6061a9d691e0112c88b9834e

标题:Model-Based Meta-Reinforcement Learning for Flight With Suspended Payloads(具有悬浮有效载荷的基于模型的元强化学习)

简介:对于自动驾驶飞行器而言,运输悬浮的有效载荷具有挑战性,因为有效载荷会导致机器人动力学发生重大且不可预测的变化。这些变化可能导致飞行性能欠佳,甚至发生灾难性故障。尽管自适应控制和基于学习的方法原则上可以适应这些混合机器人有效载荷系统的变化,但是在飞行中快速适应具有先验未知物理特性的有效载荷仍然是一个悬而未决的问题。本文提出了一种元学习方法,该方法可在连接后飞行数据的几秒钟内“学习如何学习”变化后的动力学模型。实验表明,在一系列具有挑战性的悬挂式有效载荷运输任务中,该文的在线适应方法优于非自适应方法。

论文链接:https://www.aminer.cn/pub/5ea2b8c391e01167f5a89e1c

标题:ViNG: Learning Open-World Navigation with Visual Goals(ViNG:通过视觉目标学习开放世界的导航)

简介:本文提出了一种基于学习的导航系统,以实现视觉指示的目标,并在真实的移动机器人平台上演示该系统。与传统的机器人导航方法相比,学习可以使机器人学习导航能力,了解可穿越的障碍物类型(例如高草),而不是根据几何形状和地图来推理环境。(例如墙壁),并概括环境中的模式。在部署过程中很难更改学习策略的目标。通过学习导航到所需目的地的目标图像的方法。将学习到的策略与根据先前观察到的数据构建的拓扑图相结合,即使在外观和光线变化的情况下,该系统也可以确定如何达到视觉指示的目标。在航点提议,图形修剪和否定挖掘使该方法能够仅使用脱机数据来学习在现实环境中的导航,而这是以前方法所难以解决的。实例研究表明ViNG的系统优于以前提出的用于目标条件式强化学习的方法,包括结合强化学习和搜索的其他方法。在许多实际应用中演示了ViNG,例如最后一英里的交付和仓库检查。

论文链接:https://www.aminer.cn/pub/5fdc955491e01104c9181219

标题:SimGAN: Hybrid Simulator Identification for Domain Adaptation via Adversarial Reinforcement Learning(SimGAN:通过对抗增强学习进行领域自适应的混合模拟器识别)

简介:随着基于学习的方法朝着使机器人控制器设计自动化的方向发展,将学习到的策略转移到具有不同动态特性的新域(例如,从模拟到真实的转移)仍然需要人工。本文介绍了SimGAN,它是一种解决领域适应问题的框架,它通过使用学习的判别性损失来解决与人工损失设计相关的局限性,从而确定混合物理模拟器以将模拟轨迹与目标领域的轨迹相匹配。混合模拟器将神经网络和传统物理模拟相结合,以平衡表现力和通用性,并减少了在系统ID中精心选择的参数集的需求。通过对抗性强化学习识别出混合模拟器之后,就可以将其用于优化目标领域的策略,无需收集更多数据。证明了该方法在六个机器人运动任务领域的表现优于多个强基准。

论文链接:https://www.aminer.cn/pub/600558f091e0118e0cce2239

标题:Learning Task Space Actions for Bipedal Locomotion(学习双足运动的任务空间动作)

简介:强化学习 (RL) 在训练真实机器人双足运动策略方面的成功。然而,先前研究侧重于基于跟踪现有控制器产生的联合轨迹的目标来学习联合协调控制器。因此,很难训练这些方法来实现腿运动的更高级别的目标。本文提出了将机器人系统的知识整合到 RL 中的方法,以允许在任务空间动作的水平上根据脚设定点进行学习。特别是将学习任务空间策略与基于模型的逆动力学控制器相结合,将任务空间动作转换为关节级控制。通过这种用于学习运动的自然动作空间,与学习纯联合空间动作相比,该方法具有更高的样本效率并产生所需的任务空间动态。通过模拟中演示了该方法,并表明学习到的策略能够转移到真正的双足机器人 Cassie上。这一结果激励进一步研究将双足控制技术纳入学习过程的结构以实现动态行为。

论文链接:https://www.aminer.cn/pub/5fabac3591e0110281fda9b8

标题:Learning Spring Mass Locomotion: Guiding Policies With a Reduced-Order Model(学习弹簧质量运动:使用降阶模型指导策略)

简介:本文描述了一种在物理机器人上实现动态腿部运动的方法,该方法将现有的控制方法与强化学习相结合。通过描述腿运动的基本物理学的降阶模型来规划最高级别的行为,而较低级别的控制器利用可以弥合理想化简单模型之间差距的学习策略以及复杂的全订单机器人。高级规划器可以使用环境模型并针对特定的任务,而低级学习控制器可以执行各种运动,以便它适用于许多不同的任务。基于学习动态步行控制器,并展示了来自降阶模型的一系列步行运动可以用作学习策略的命令和主要训练信号。由此产生的策略不是试图像传统的轨迹跟踪控制器那样天真地跟踪运动,而是平衡即时运动跟踪与长期稳定性。最终的控制器以高达1.2 m / s的速度在人类规模,不受约束的双足机器人上进行了演示。本文为通用的动态学习步行控制器奠定了基础,该控制器可应用于许多不同的任务。

论文链接:https://www.aminer.cn/pub/5f929e9791e011edb35738e9

标题:Model Predictive Actor-Critic: Accelerating Robot Skill Acquisition with Deep Reinforcement Learning(模型预测演员-评论家:通过深度强化学习来加速机器人技能的获得)

简介:基于模型的强化学习算法的实质性进步已受到所收集数据引起的模型偏差的阻碍,其固有的样品效率保证了其在大多数机器人应用中的实用性,从而限制了训练过程中对机器人及其环境的潜在损害。受信息理论模型预测控制和深度强化学习进展的启发,本文引入了基于模型/无模型的混合方法-模型预测演员-评论家(MoPAC),将模型预测推出与策略优化相结合,从而减轻了模型偏差。MoPAC利用最佳轨迹来指导策略学习,通过其无模型方法进行探索,从而使该算法可以学习更具表现力的动力学模型。这种结合保证了最佳的技能学习,直至接近误差,并减少了与环境的必要物理交互,使其适合于实际的机器人培训。通过评估MoPAC来进行物理机械手学习以进行阀门旋转和手指步态学习来得出结论-这是一项需要抓握、操纵然后重新抓取物体的任务。

论文链接:https://www.aminer.cn/pub/605db42791e0113c286559c3

标题:Differentiable Physics Models for Real-World Offline Model-Based Reinforcement Learning(现实世界基于离线模型的强化学习的可微物理模型)

简介:基于模型的强化学习 (MBRL) 的一个限制是会利用学习模型中的错误。黑盒模型可以高保真地拟合复杂的动力学,但它们的行为在数据分布之外是未定义的。基于物理的模型由于其信息结构的普遍有效性而更擅长外推,但由于存在未建模的现象,因此在现实世界中不适合。实验证明对于基于离线模型的强化学习设置,如果机械结构已知,则基于物理的模型与高容量函数逼近器相比可能是有益的。基于物理的模型可以使用离线 MBRL 仅使用 4 分钟的采样数据学习在物理机械手上执行杯中球 (BiC) 任务。尽管可以访问比基于物理的模型更多的数据,但黑盒模型始终为 BiC 制定不可行的策略,因为所有预测轨迹都发散到物理上不可能的状态。此外,本文将物理参数识别方法从完整的多体系统建模推广到使用端到端自动微分的非完整动力学系统。

论文链接:https://www.aminer.cn/pub/5fa2890391e011cda13f4fe3

标题:Recovery RL: Safe Reinforcement Learning with Learned Recovery Zones(Recovery RL:通过学习的恢复区域进行安全强化学习)

简介:安全仍然是阻止在现实世界中广泛使用RL的主要障碍:在不确定的环境中学习新任务需要进行广泛的探索,而安全则需要进行有限的探索。本文提出了Recovery RL,该算法可通过(1)利用离线数据来了解违反约束的区域来导航此折中前策略学习和(2) 分离跨两个策略提高任务性能和约束满意度的目标:仅优化任务奖励的任务策略,以及在可能违反约束条件时将智能体引导至安全状态的恢复策略。本文在6个仿真域上评估了Recovery RL,包括两个接触丰富的操纵任务和一个基于图像的导航任务,以及在物理机器人上的基于图像的避障任务。本文将Recovery RL与5种先前的安全RL方法进行了比较,后者通过约束优化或奖励整形共同优化了任务性能和安全性,发现Recovery RL在所有领域的性能均优于次优方法。结果表明,Recovery RL在约束域和任务成功之间进行权衡,仿真领域的效率提高2至20倍,而物理实验的效率提高3倍。

论文链接:https://www.aminer.cn/pub/5f9fcda491e0112e85ce8fe9

标题:What Can I Do Here? Learning New Skills by Imagining Visual Affordances(我可以在这里做什么?通过想象视觉影响来学习新技能)

简介:一个拥有学习技能的通用型机器人必须能够在许多不同的环境中执行许多任务。然而遇到环境或物体变化时,它可能需要微调它的一些技能以适应这种变化。先前的行为和模型仍然应该适合并加速这种新的学习场景。本文的目标是研究可能的结果的生成模型如何能够让机器人学习有负担能力的视觉表征,从而使机器人就可以在新的情况下对潜在的可能结果进行采样,然后进一步训练其策略。当机器人遇到陌生的环境时,它可以从其模型中抽出潜在的结果,试图达到这些结果,然后进一步训练其策略以达到这些结果。即视觉运动承受力学习(VAL),可以用来训练有目标的策略。可用于训练以原始图像输入为基础的目标条件策略,并能迅速学会通过VAL快速学习操纵新物体。

论文链接:https://www.aminer.cn/pub/60c9423e91e01169a64d986a

新工具

标题:BADGR: An Autonomous Self-Supervised Learning-Based Navigation System(BADGR:一个基于自监督学习的自主导航系统)

简介:移动机器人导航通常被视为一个几何问题。机器人的目标是通过感知环境的几何形状,以规划无碰撞的路径达到预期的目标。然而,一个对世界的纯粹的几何角度可能不足以解决许多导航问题。例如,一个基于几何学进行导航的机器人可能会避开一片高大的草地,因为它认为那是无法穿越的,因此将无法达到它的预期目标。本文研究了如何超越这些纯粹基于几何学的方法,使用一种从经验中学习物理导航能力的方法(BADGR)。其为基于端到端学习的移动机器人导航系统,可以用在真实世界环境中收集的自监督的离线数据进行训练,不需要任何模拟或人类监督。BADGR可以在现实世界的城市和非道路环境中进行导航。在现实世界中,BADGR可以在有几何干扰障碍物的城市和越野环境中进行导航。它还可以将地形偏好,归纳到新的环境中,并通过收集更多的数据继续通过收集更多的数据来自主地改进。

论文链接:https://www.aminer.cn/pub/5e4672c93a55ac14f595d8ac

[关于转载]:本文转载于 智源社区 ,仅用于学术分享,有任何问题请与我们联系:report@aminer.cn。

扫码微信阅读
[关于转载]:本文转载于 智源社区,仅用于学术分享,有任何问题请与我们联系:report@aminer.cn。