Entropic Risk Constrained Soft-Robust Policy Optimization

Reazul Hasan Russel,Bahram Behzadian,Marek Petrik

arxiv（2020）

引用 0|浏览22

暂无评分

摘要

Having a perfect model to compute the optimal policy is often infeasible in reinforcement learning. It is important in high-stakes domains to quantify and manage risk induced by model uncertainties. Entropic risk measure is an exponential utility-based convex risk measure that satisfies many reasonable properties. In this paper, we propose an entropic risk constrained policy gradient and actor-critic algorithms that are risk-averse to the model uncertainty. We demonstrate the usefulness of our algorithms on several problem domains.

查看译文

关键词

entropic risk,optimization,soft-robust

AI 理解论文

溯源树

样例

生成溯源树，研究论文发展脉络

Chat Paper

正在生成论文摘要