加入收藏 | 设为首页 | 会员中心 | 我要投稿 河北网 (https://www.hebeiwang.cn/)- 科技、建站、经验、云计算、5G、大数据,站长网!
当前位置: 首页 > 建站 > 正文

让神经网络训练速度加快4倍!谷歌大脑团队提出“数据回送”算法

发布时间:2019-07-23 06:53:47 所属栏目:建站 来源:AI前线小组 译
导读:在摩尔定律的暮色中,GPU 和其他硬件加快器极大地加快了神经收集的实习。可是,实习进程的前期阶段(如磁盘读写和数据预处理赏罚)并不在加快器上运行。跟着加快器的不绝改造,这些前期阶段所耗费的时刻将逐渐成为逊?з度的瓶颈。谷歌大脑团队提出了数据回送

作者在两个说话建模使命、两个图像分类使命和一个方针检测使命上验证了数据回送的结果。对付说话建模使命,作者在 LM1B 和 Common Crawl 数据集上实习了 Transformer 模子。对付图像分类使命,作者在 CIFAR-10 数据集上实习了 ResNet-32 模子,在 ImageNet 数据集上实习了 ResNet-50 模子。对付方针检测使命,作者在 COCO 数据集上实习了 SSD 模子。

论文研究的首要题目是数据回送是否可以或许加快实习。作者用到达实习方针所需的“奇怪”样本数目权衡实习时刻。由于新样本的数目与实习流程中上游步调的数目成正比,因此,在回送因子小于或便是 r 时,新样本的数目与现实时刻亦成正比。

让神经收集逊?з度加速4倍!谷歌大脑团队提出“数据回送”算法

表 1 使命总结

对付使命,作者运行了一组没稀有据回送的初始尝试,而且调解参数以在现实计较预算内得到最佳的机能。作者选择了比初始尝试中调查到的最佳值稍差的方针值。方针的细小变革并不会影响结论。表 1 总结了尝试中行使的模子和方针值。

对每个尝试,作者独立调解进修速度、动量和其余节制进修速度的参数。作者行使准随机搜刮来调解元参数。然后选择行使起码的新样本到达方针值的试验。作者在每个搜刮空间一再这个元参数搜刮 5 次。尝试功效中的全部图都表现了这 5 次尝试所需的新样本的均匀数,用偏差条暗示最小和最大值。

尝试评估了在尺度神经收集实习流程中添加数据回送的结果。作者尝试了三种差异的数据回送:数据加强前的样本回送,加强后的样本回送,以及批回送。

3.1 数据回送可镌汰逊??需的新样本数目

图 3 表现了表 1 中全部使命的数据回送结果,回送因子为 2。除一种环境外,全部环境下数据回送到达方针机能所必要的新样本数更少。独一的破例(ResNet-50 上的批回送)必要与基线沟通数目的新样本——声名数据回送固然没有带来甜头,但也不会侵害实习。在实习中插入回送越早,所需的新样本就越少:与批回送对比,样本回送必要的新样本更少,而且数据加强之前的回送必要的新样本比加强之后回送必要的新样本更少。对付 ResNet-50 或 SSD,没有调查到数据回送和批归一化之间的任何负交互浸染。

让神经收集逊?з度加速4倍!谷歌大脑团队提出“数据回送”算法

图 3 回送因子为 2 时,数据回送低落或不改变必要到达方针机能的新样本数目。点划线暗示一再样本与新样本代价沟通时的祈望值。

3.2 数据回送可以收缩实习时刻

图 4 表现了差异的 R 值(上下流处理赏罚时刻的比例)对应差异的回送因子 e 的实习时刻变革。假如 R=1,数据回送会增进,或不像预期的那样明显收缩实习时刻。假如 R>1,e≤r 的任何配置都能收缩实习时刻,配置 e=R 可以最洪流平地收缩实习时刻。配置 e>R 不会收缩 LM1B 数据集上 Transformer 的实习时刻,但它确实为 ImageNet 上的 ResNet-50 提供了加快。这些功效表白,环绕 e=R 的最佳值四面的回送因子,数据回送可以收缩实习时刻,尤其是 e≤R 的配置。

让神经收集逊?з度加速4倍!谷歌大脑团队提出“数据回送”算法

图 4 差异 R 值对实习时刻变革的影响

3.3 在回送因子的公道上限内,数据回送是有用的

图 5 表现了 Transformer 在 LM1B 上实习时,回送因子高达 16 的影响。批尺寸为 1024 时,最大有用回送因子介于 4 和 8 之间;高出此值,所需新样本的数目就会大于较小回送因子所需的样本数目。跟着回送因子的增进,所需的新样本数目最终会高出基线,但纵然是一个大于 16 的回送因子,所需的新样本如故比基线少得多。批尺寸为 4096 时,最大有用回送因子乃至大于 16,这表白较大的批尺寸支持更大的回送因子。

让神经收集逊?з度加速4倍!谷歌大脑团队提出“数据回送”算法

图 5 回送因子上限为 16 时,样本回送镌汰了所需新样本的数目。点划线暗示一再样本与新样本代价沟通时的祈望值。

3.4 批尺寸的增进对数据回送的影响

对付较大的批尺寸,批回送的机能更好,但样本回送偶然必要更多的 shuffle 操纵。图 6 表现了回送因子为 2 时,差异批尺寸的结果。跟着批尺寸的增进,批回送的机能相对付基线保持稳固或有所进步。这种影响是有原理的,由于跟着批尺寸靠近实习集的巨细,一再的批数据会靠近新的批数据,因此,在限定范畴内,批回送必需通过回送因子镌汰所需的新样本数目。另一方面,图 6 表现了跟着批尺寸增进,样本回送的机能相对付基线的要么保持稳固,要么变差。这是因为跟着批尺寸的增进,每批中一再样本的比例也随之增进,因此现实中,批尺寸较大的样本回送的示意也许更像较小的批尺寸的示意。较小的批尺寸也许会增进所需的 SGD 更新步数,这可以表明图 6 中的样本回送功效。增进一再样本的乱序数目(以增进内存为价钱)可以晋升较大批尺寸时样本回送的机能,由于低落了每批中一再样本的概率。

让神经收集逊?з度加速4倍!谷歌大脑团队提出“数据回送”算法

图 6 随批尺寸增进,批回送的示意相对付基线保持稳固或有所晋升,而样本回送的示意相对付基线保持稳固或有所低落。点划线暗示一再样本与新样本代价沟通时的祈望值。

3.5 Shuffle 水平越高,数据回送示意更好

(编辑:河北网)

【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!

热点阅读