这个开源项目用Pytorch实现了17种强化学习算法

发布时间：2019-09-29 14:59:07 所属栏目：建站来源：猿妹编译

导读：强化进修在已往的十年里取得了庞大的成长，现在已然是各大规模热捧的技能之一，本日，猿妹和各人保举一个有关强化进修的开源项目。这个开源项目是通过PyTorch实现了17种深度强化进修算法的教程和代码库，辅佐各人在实践中领略深度RL算法。完备的17个算法

强化进修在已往的十年里取得了庞大的成长，现在已然是各大规模热捧的技能之一，本日，猿妹和各人保举一个有关强化进修的开源项目。

这个开源项目是通过PyTorch实现了17种深度强化进修算法的教程和代码库，辅佐各人在实践中领略深度RL算法。

完备的17个算法实现如下：

Deep Q Learning (DQN) (Mnih et al. 2013)
DQN with Fixed Q Targets (Mnih et al. 2013)
Double DQN (DDQN) (Hado van Hasselt et al. 2015)
DDQN with Prioritised Experience Replay (Schaul et al. 2016)
Dueling DDQN (Wang et al. 2016)
REINFORCE (Williams et al. 1992)
Deep Deterministic Policy Gradients (DDPG) (Lillicrap et al. 2016 )
Twin Delayed Deep Deterministic Policy Gradients (TD3) (Fujimoto et al. 2018)
Soft Actor-Critic (SAC & SAC-Discrete) (Haarnoja et al. 2018)
Asynchronous Advantage Actor Critic (A3C) (Mnih et al. 2016)
Syncrhonous Advantage Actor Critic (A2C)
Proximal Policy Optimisation (PPO) (Schulman et al. 2017)
DQN with Hindsight Experience Replay (DQN-HER) (Andrychowicz et al. 2018)
DDPG with Hindsight Experience Replay (DDPG-HER) (Andrychowicz et al. 2018 )
Hierarchical-DQN (h-DQN) (Kulkarni et al. 2016)
Stochastic NNs for Hierarchical Reinforcement Learning (SNN-HRL) (Florensa et al. 2017)
Diversity Is All You Need (DIAYN) (Eyensbach et al. 2018)

全部实现都可以或许快速办理Cart Pole（离散举措），Mountain Car Continuous（持续举措），Bit Flipping（具有动态方针的离散举措）或Fetch Reach（具有动态方针的持续举措）。建设者打算尽快添加更多的分层RL算法。

1. Cart Pole 和 Mountain Car

下面展示了各类RL算法乐成进修离散举措游戏Cart Pole 或持续举措游戏Mountain Car。行使3个随机种子运行算法的均匀功效表现如下：

这个开源项目用Pytorch实现了17种强化进修算法

阴影地区暗示正负1尺度差。行使超参数可以在 results/Cart_Pole.py 和 results/Mountain_Car.py 文件中找到。

2. Hindsight Experience Replay (HER) Experiements

下图展示了DQN和DDPG在 Bit Flipping(14位)和 Fetch Reach 情形中的机能，这些情形描写在论文《后见之明体验重放2018》和《多方针强化进修2018》中。这些功效复现了论文中发明的功效，并展示了Fetch HER怎样让一个agent办理它无法办理的题目。留意，在每对agents中都行使了沟通的超参数，因此它们之间的独一区别是是否行使hindsight。

è¿™ä¸ªå¼€æºé¡¹ç›®ç”¨Pytorchå®žçŽ°äº†17ç§å¼ºåŒ–å¦ä¹ ç®—æ³•

3. Hierarchical Reinforcement Learning Experiments

è¿™ä¸ªå¼€æºé¡¹ç›®ç”¨Pytorchå®žçŽ°äº†17ç§å¼ºåŒ–å¦ä¹ ç®—æ³•

上图左边的功效表现了在 Long Corridor 情形中 DQN 和 Kulkarni 等人在 2016 年提出的 hierarchy -DQN 算法的机能。
上图右边的功效表现了 Florensa 等人 2017 年提出的 DDQN 算法和用于分层强化进修的随机神经收集 (SNN-HRL) 的机能。

è¿™ä¸ªå¼€æºé¡¹ç›®ç”¨Pytorchå®žçŽ°äº†17ç§å¼ºåŒ–å¦ä¹ ç®—æ³•

今朝，该项目已经在Github上标星 962，170个Fork（Github地点：https://github.com/p-christ/Deep-Reinforcement-Learning-Algorithms-with-PyTorch）

（编辑：河北网）

【声明】本站内容均来自网络，其相关言论仅代表作者个人观点，不代表本站立场。若无意侵犯到您的权利，请及时与联系站长删除相关内容!

6个值得珍藏的搜索引擎	网站优化核心减少SEO污
网站seo优化三个基础知	什么时候宣布文章收录