加入收藏 | 设为首页 | 会员中心 | 我要投稿 河北网 (https://www.hebeiwang.cn/)- 科技、建站、经验、云计算、5G、大数据,站长网!
当前位置: 首页 > 建站 > 正文

荟萃三大类无模子强化进修算法,BAIR开源RL代码库rlpyt

发布时间:2019-10-08 23:48:38 所属栏目:建站 来源:机器之心编译
导读:克日,BAIR 开源强化进修研究代码库 rlpyt,初次包括三大类无模子强化进修算法,并提出一种新型数据布局。 2013 年有研究者提出行使深度强化进修玩游戏,之后不久深度强化进修又被应用于模仿呆板人节制,自此往后大量新算法层出不穷。个中大部门属于无模子

rlpyt 是 accel_rl 的修订版本,accel_rl 行使 Theano 实行在 Atari 规模中扩展强化进修,详见论文《Accelerated Methods for Deep Reinforcement Learning》。对付深度进修和强化进修中的批巨细扩展的进一步研究,拜见 OpenAI 的陈诉(https://arxiv.org/abs/1812.06162)。rlpyt 和 accel_rl 最初都受 rllab 的开导。

其他已宣布的研究代码库包罗 OpenAI 基线和 Dopamine,二者都行使的是 Tensorflow 框架,都没有优化到 rlpyt 的水平,也不包括三类算法。基于 Ray 构建的 Rllib 采纳差异的要领执行漫衍式计较,但也许把小尝试伟大化。Facebook Horizon 提供了一组算法,首要存眷大局限出产级应用。总之,rlpyt 提供更多算法的模块化实现以及并行化的模块化基本架构,是支持普及研究应用的器材箱。

结论

BAIR 在相干博客中暗示,rlpyt 可以促进对现有深度强化进修技能的便捷行使,并作为开启新研究的出发点。譬喻,rlpyt 没有明晰办理一些更先辈的话题,如元进修、基于模子的强化进修和多智能体强化进修,可是 rlpyt 提供的可用代码也许对付加快这些规模的成长有所辅佐。

(编辑:河北网)

【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!

热点阅读