TPU、GPU、CPU深度进修平台哪家强？有人做了一个基准测试研究

发布时间：2019-09-05 20:40:35 所属栏目：建站来源：机器之心

导读：GPU、TPU、CPU 都可以用于深度进修模子的实习，那么这几个平台各合用于哪种模子，又各有哪些瓶颈?在本文中，来自哈佛的研究者计划了一个用于深度进修的参数化基准测试套件ParaDnn，旨在体系地对这些深度进修平台举办基准测试。 ParaDnn 可以或许为全毗连(FC)、

副问题[/!--empirenews.page--]

GPU、TPU、CPU 都可以用于深度进修模子的实习，那么这几个平台各合用于哪种模子，又各有哪些瓶颈?在本文中，来自哈佛的研究者计划了一个用于深度进修的参数化基准测试套件——ParaDnn，旨在体系地对这些深度进修平台举办基准测试。

ParaDnn 可以或许为全毗连(FC)、卷积(CNN)和轮回(RNN)神经收集天生端到端的模子。研究者行使 6 个现实模子对谷歌的云 TPU v2/v3、英伟达的 V100 GPU、以及英特尔的 Skylake CPU 平台举办了基准测试。他们深入研究了 TPU 的架构，显现了它的瓶颈，并重点先容了可以或许用于将来专业体系计划的名贵履历。他们还提供了平台的全面比拟，发明每个平台对某些范例的模子都有本身奇异的上风。最后，他们量化了专用的软件仓库对 TPU 和 GPU 平台提供的快速机能改造。

论文：Benchmarking TPU, GPU, and CPU Platforms for Deep Learning
论文链接：https://arxiv.org/pdf/1907.10701.pdf

常用硬件及基准都有啥

TPU v2 宣布于 2017 年 5 月，它是一款定制的专用集成电路(ASIC)。每个 TPU v2 装备可以或许在单板上提供 180 TFLOPS 的峰值算力。一年之后 TPU v3 宣布，它将峰值机能进步到了 420 TFLOPS。云 TPU 于 2018 年 2 月开始提供学术会见权限。这篇论文中行使的就是云 TPU。

英伟达的 Tesla V100 Tensor Core 是一块具有 Volta 架构的 GPU，于 2017 年宣布。

CPU 已经被证明在某些特定的用例中会越发得当实习，因此它也是一个重要的平台，应该被包括在较量内容中。

这项研究表白，没有一个平台在全部的场景中是最佳的。基于它们各自的特点，差异的平台可以或许为差异的模子提供上风。另外，因为深度进修模子的快速改造和变革，基准测试也必需一连更新并常常举办。

最近的基准测试好像都范围于恣意的几个 DNN 模子。只盯着闻名的 ResNet50 和 Transformer 等模子也许会获得误导性的结论。譬喻，Transformer 是一个大型的全毗连模子，它在 TPU 上的逊?з度比在 GPU 上快了 3.5 倍;可是，存眷这一个模子并不能显现 TPU 在高出 4000 个节点的全毗连收集上呈现的严峻的内存带宽瓶颈。这凸显了为某些模子去太过优化硬件和(或)编译器的风险。

新一代硬件基准测试

为了对最先辈的深度进修平台举办基准测试，这篇论文提出了一个用于实习的深度进修模子荟萃。为了支持普及和全面的基准测试研究，研究者引入了 ParaDnn 这一参数化的深度进修基准测试组件。ParaDnn 可以或许无缝地天生数千个参数化的多层模子，这些模子由全毗连(FC)模子、卷积神经收集(CNN)以及轮回神经收集(RNN)构成。ParaDnn 应承对参数局限在近乎 6 个数目级的模子长举办体系基准测试，这已经逾越了现有的基准测试的范畴。

研究者将这些参数化模子与 6 个实际模子团结起来，作为普及模子范畴内的奇异点，以提供对硬件平台的全面基准测试。表 1 总结了本文中描写的十 14 个调查功效和看法，这些调查和看法可觉得将来的特定规模架构、体系和软件计划提供开导信息。

表 1：本文部门分组的首要调查和看法总结

研究者特意标志了通过 ParaDnn 获得的看法。他们从论文第 4 部门开始对 TPU v2 和 v3 的架构举办深入切磋，显现了算力中的架构瓶颈、内存带宽、多片负载以及装备-主机均衡(第 1 到 5 个调查)。论文第五部门提供了 TPU 和 GPU 机能的全面较量，突出了这两个平台的重要区别(第 6 到第 11 个调查)。最后的 3 个调查在论文第六部门有具体描写，切磋了专用软件仓库和量化数据范例带来的机能改造。

明晰本研究的范围性很是重要。这篇论文着重研究了今朝的架构和体系计划中可以优化的也许性，由于它们为将来的计划提供了名贵的履历。优化的细节不属于本文的研究范畴。譬喻，本文的说明只聚焦于实习而不是推理。作者没有研究多 GPU 平台或 256 节点 TPU 体系的机能，二者也许会导致差异的结论。

深度进修基准测试

深度进修(DL)最近的乐成驱动了关于基准测试组件的研究。现有的组件首要有两种范例：一是像 MLPerf,、Fathom、BenchNN、以及 BenchIP 这种现实的基准测试;二是 DeepBench、BenchIP 这类微基准测试，可是它们都有必然的范围。

这些组件仅包括本日已有的深度进修模子，跟着深度进修模子的快速成长，这些模子也许会过期。并且，它们没有显现深度进修模子属性和硬件平台机能之间的深刻看法，由于基准测试只是庞大的深度进修空间中的稀少点罢了。

ParaDnn 对这项研究现有的基准测试组件做出了增补，它具有以上这些要领的利益，方针是提供「端到端」的、可以或许涵盖现有以及将来应用的模子，而且将模子参数化，以试探一个更大的深度神经收集属性的计划空间。

图 1：这篇文章中全部负载的可实习参数的数目。ParaDnn 中的模子参数范畴在 1 万到靠近十亿之间，如图所示，它要比现实模子的参数范畴更大，如图中的点所示。

硬件平台

作者对硬件平台的选择反应了在论文提交时，云平台上普及可用的最新设置。模子的具体指标在表 3 中。

表 3：作为研究工具的硬件平台

尝试图表

图 2(a)–(c) 表白，这三种要领的 FLOPS 操作率是跟着 batch size 的增大而增大的。除此之外，全毗连收集的 FLOPS 操作率跟着每层节点数的增进而增大(图 2(a));卷积神经收集的 FLOPS 操作率跟着滤波器的增进而增大，轮回神经收集的 FLOPS 操作率跟着嵌入尺寸的增大而增大。图 2(a)–(c) 中的 x 轴和 y 轴是图 2(d)–(f) 中具有最大绝对值的超参数。

（编辑：河北网）

【声明】本站内容均来自网络，其相关言论仅代表作者个人观点，不代表本站立场。若无意侵犯到您的权利，请及时与联系站长删除相关内容!

1/3

尾页

6个值得珍藏的搜索引擎	网站优化核心减少SEO污
网站seo优化三个基础知	什么时候宣布文章收录