加入收藏 | 设为首页 | 会员中心 | 我要投稿 河北网 (https://www.hebeiwang.cn/)- 科技、建站、经验、云计算、5G、大数据,站长网!
当前位置: 首页 > 建站 > 正文

这个开源项目用Pytorch实现了17种强化学习算法

发布时间:2019-09-29 14:59:07 所属栏目:建站 来源:猿妹编译
导读:强化进修在已往的十年里取得了庞大的成长,现在已然是各大规模热捧的技能之一,本日,猿妹和各人保举一个有关强化进修的开源项目。 这个开源项目是通过PyTorch实现了17种深度强化进修算法的教程和代码库,辅佐各人在实践中领略深度RL算法。 完备的17个算法

强化进修在已往的十年里取得了庞大的成长,现在已然是各大规模热捧的技能之一,本日,猿妹和各人保举一个有关强化进修的开源项目。

这个开源项目是通过PyTorch实现了17种深度强化进修算法的教程和代码库,辅佐各人在实践中领略深度RL算法。

完备的17个算法实现如下:

  • Deep Q Learning (DQN) (Mnih et al. 2013)
  • DQN with Fixed Q Targets (Mnih et al. 2013)
  • Double DQN (DDQN) (Hado van Hasselt et al. 2015)
  • DDQN with Prioritised Experience Replay (Schaul et al. 2016)
  • Dueling DDQN (Wang et al. 2016)
  • REINFORCE (Williams et al. 1992)
  • Deep Deterministic Policy Gradients (DDPG) (Lillicrap et al. 2016 )
  • Twin Delayed Deep Deterministic Policy Gradients (TD3) (Fujimoto et al. 2018)
  • Soft Actor-Critic (SAC & SAC-Discrete) (Haarnoja et al. 2018)
  • Asynchronous Advantage Actor Critic (A3C) (Mnih et al. 2016)
  • Syncrhonous Advantage Actor Critic (A2C)
  • Proximal Policy Optimisation (PPO) (Schulman et al. 2017)
  • DQN with Hindsight Experience Replay (DQN-HER) (Andrychowicz et al. 2018)
  • DDPG with Hindsight Experience Replay (DDPG-HER) (Andrychowicz et al. 2018 )
  • Hierarchical-DQN (h-DQN) (Kulkarni et al. 2016)
  • Stochastic NNs for Hierarchical Reinforcement Learning (SNN-HRL) (Florensa et al. 2017)
  • Diversity Is All You Need (DIAYN) (Eyensbach et al. 2018)

全部实现都可以或许快速办理Cart Pole(离散举措),Mountain Car Continuous(持续举措),Bit Flipping(具有动态方针的离散举措)或Fetch Reach(具有动态方针的持续举措)。建设者打算尽快添加更多的分层RL算法。

1. Cart Pole 和 Mountain Car

下面展示了各类RL算法乐成进修离散举措游戏Cart Pole 或持续举措游戏Mountain Car。行使3个随机种子运行算法的均匀功效表现如下:

这个开源项目用Pytorch实现了17种强化进修算法

阴影地区暗示正负1尺度差。行使超参数可以在 results/Cart_Pole.py 和 results/Mountain_Car.py 文件中找到。

2. Hindsight Experience Replay (HER) Experiements

下图展示了DQN和DDPG在 Bit Flipping(14位)和 Fetch Reach 情形中的机能,这些情形描写在论文《后见之明体验重放2018》和《多方针强化进修2018》中。这些功效复现了论文中发明的功效,并展示了Fetch HER怎样让一个agent办理它无法办理的题目。留意,在每对agents中都行使了沟通的超参数,因此它们之间的独一区别是是否行使hindsight。

这个开源项目用Pytorch实现了17种强化学习算法

3. Hierarchical Reinforcement Learning Experiments

这个开源项目用Pytorch实现了17种强化学习算法

上图左边的功效表现了在 Long Corridor 情形中 DQN 和 Kulkarni 等人在 2016 年提出的 hierarchy -DQN 算法的机能。
上图右边的功效表现了 Florensa 等人 2017 年提出的 DDQN 算法和用于分层强化进修的随机神经收集 (SNN-HRL) 的机能。

这个开源项目用Pytorch实现了17种强化学习算法

今朝,该项目已经在Github上标星 962,170个Fork(Github地点:https://github.com/p-christ/Deep-Reinforcement-Learning-Algorithms-with-PyTorch)

(编辑:河北网)

【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!

    热点阅读