所有文章 > 正文

美国工程院院士Dimitri P. Bertsekas: 基于特征的聚合与深度强化学习

作者: 《自动化学报》(英)

浏览量: 379

时间: 2020-03-02 08:19

关键词: 策略迭代,神经网络,近似策略迭代,马尔可夫决策问题

近日, 美国工程院院士、麻省理工学院(MIT)教授Dimitri P. Bertsekas在IEEE/CAA Journal of Automatica Sinica发表了综述“Feature-Based Aggregation and Deep Reinforcement Learning: A Survey and Some New Implementations”。

本文经授权转载自“JAS自动化学报英文版”微信公众号)

在这篇31页的综述中,Bertsekas教授介绍策略迭代的发展,总结近似策略迭代方法相关问题,回顾了基于神经网络的近似策略迭代的核心思想。

2020030201.png

图 基于特征的近似动态规划

Bertsekas教授讨论了有限状态下马尔可夫决策问题近似解的策略迭代,特别是基于特征的聚合及其与深度强化学习的联系,提出将深度神经网络的特征提取能力与聚合提供的非线性近似可能性相结合的方法。文中归纳了基于聚合的近似动态规划与深度强化学习方法,引入初始问题状态的特征,构建了一个聚合马尔可夫决策问题,使其满足状态与特征相关条件,并讨论该类型聚合的性质和可能实现。

提出了策略改进方法的新思路:将基于特征的聚合与利用深度神经网络等的特征构建相结合。由于聚合的动态规划特性及非线性基于特征结构的使用,相比基于神经网络的强化学习提供的特征线性函数,聚合后的特征非线性函数可使策略的代价函数得到更精确近似,从而产生更有效的策略。

文章结构

1. Introduction

1.1 Alternative Approximate Policy Iteration Methods

1.2 Terminology

2. Approximate Policy Iteration: An Overview

2.1 Direct and Indirect Approximation

2.2 Indirect Methods Based on Projected Equations

2.3 Indirect Methods Based on Aggregation

2.4 Implementation Issues

3. Approximate Policy Iteration Based on Neural Networks

4. Feature-Based Aggregation Framework

4.1 The Aggregate Problem

4.2 Solving the Aggregate Problem with Simulation-Based Methods

4.3 Feature Formation by Using Scoring Functions

4.4 Using Heuristics to Generate Features - Deterministic Optimization and Rollout

4.5 Stochastic Shortest Path Problems - Illustrative Examples

4.6 Multistep Aggregation

5. Policy Iteration with Feature-Based Aggregation and a Neural Network

6. Concluding Remarks

引用格式

D. P. Bertsekas, “Feature-based aggregation and deep reinforcement

learning: asurvey and some new implementations,”IEEE/CAA J. Autom.

Sinica,vol. 6, no. 1, pp. 1-31, Jan. 2019.

作者介绍

2020030202.jpg

Dimitri P. Bertsekas, 麻省理工学院(MIT)工程与计算机科学系教授,美国工程院院士,研究领域涵盖优化、控制、大规模计算和数据通信网络等,h-index为90,出版专著16部,其中一些被用作麻省理工学院课程的教科书。获INFORMS杰出研究奖(运筹与计算机科学交叉领域,1997年),希腊国家运筹学奖(2000年),美国控制协会 John R. Ragazzini教育学奖(2001年)。

论文地址:

http://www.ieee-jas.org/article/doi/10.1109/JAS.2018.7511249?viewType=HTML&pageType=en

[关于转载]:本文为“JAS自动化学报英文版”微信公众号文章。转载本文请联系原作者获取授权,转载仅限全文转载并保留文章标题及内容,不得删改、添加内容绕开原创保护,且文章开头必须注明:转自“JAS自动化学报英文版”微信公众号。谢谢您的合作。

扫码微信阅读
[关于转载]:本文转载于《自动化学报》(英),仅用于学术分享,有任何问题请与我们联系:report@aminer.cn。