基于考虑状态分布的深度确定性策略梯度算法的端到端自动驾驶策略

Journal of Tsinghua University(Science and Technology)(2021)

引用 0|浏览2
暂无评分
摘要
端到端方法是实现自动驾驶的方法之一,而自动驾驶的场景较为丰富,不同场景的特征差别较大,这使得基于强化学习的端到端自动驾驶方法训练时的随机性衰减速度难以确定,若衰减过快,在面对新场景时无法获得较好的自动驾驶效果,反之则会使得算法难以快速收敛.针对这一问题,该文提出了一种基于输入状态分布筛选的随机策略和经验回放方法,将当前输入的状态数据和已保存的状态数据之间的距离进行对比,根据不同的距离选择不同的随机策略参数,同时在经验回放时提高出现频率较低场景的回放概率.仿真结果表明:该算法在训练后期面对与前期数据分布差异较大的场景时仍有足够的探索能力,提高了基于深度确定性策略梯度算法的端到端自动驾驶策略在全新工况下的车道保持能力.
更多
AI 理解论文
溯源树
样例
生成溯源树,研究论文发展脉络
Chat Paper
正在生成论文摘要