高通量同步深RL

作者: | Iou-Jen Liu | Raymond A. Yeh | Alexander G. Schwing |

摘要:深度强化学习(RL)是一种计算量大的学习方法,需要对多个数据点进行处理。同步方法在保持较低的数据吞吐量的同时享受训练的稳定性。相反,异步方法具有较高的吞吐量,但由于“陈旧的策略”而存在稳定性问题和较低的样本效率。为了结合这两种方法的优点,我们提出了高通量同步深度强化学习(HTS-RL).在HTS-RL中,我们同时执行学习和推出,设计一个避免“陈旧策略”的系统设计,并确保参与者在保持完全确定性的同时,以异步方式与环境副本交互。我们评估我们在Atari比赛和谷歌研究足球环境的方法。与同步基线相比,HTS-RL比同步基线快2~6×.与最先进的异步方法相比,HTS-RL具有竞争性的吞吐量,并且始终获得更高的平均插曲奖励。

论文地址

https://arxiv.org/abs/2012.09849v1

下载地址

https://arxiv.org/pdf/2012.09849v1.pdf

全部源码

https://github.com/IouJenLiu/HTS-RL 类型: pytorch

NeurIPS 2020 Atari小游戏

相关推荐

暂无评论

微信扫一扫,分享到朋友圈

高通量同步深RL