谷歌浏览器插件
订阅小程序
在清言上使用

可数状态空间的平均成本马氏决策过程

Control Theory & Applications(2021)

引用 0|浏览7
暂无评分
摘要
具有可数状态空间的马尔可夫决策过程(Markov decision process,MDP)在平均准则下,最优(平稳)策略不一定存在.本文研究平均准则可数状态MDP中满足最优不等式的最优策略.不同于消去折扣(因子)方法,利用离散的Dynkin公式推导本文的主要结果.首先给出遍历马氏链的泊松方程和两个零常返马氏链的例子,证明了满足两个方向相反的最优不等式的最优策略存在性.其次,通过两个比较引理和性能差分公式,证明了正常返链和多链最优策略的存在性,并进一步推广到其他情形.特别地,本文通过几个应用举例,说明平均准则性能敏感的本质.本文的结果完善了可数状态MDP在平均准则下的最优不等式的理论.
更多
查看译文
关键词
Markov decision process,Dynkin's form ula,long-run average,performance sensitivity,countable state spaces,Poisson equation
AI 理解论文
溯源树
样例
生成溯源树,研究论文发展脉络
Chat Paper
正在生成论文摘要