加入收藏 | 设为首页 | 会员中心 | 我要投稿 河北网 (https://www.hebeiwang.cn/)- 科技、建站、经验、云计算、5G、大数据,站长网!
当前位置: 首页 > 建站 > 正文

TPU、GPU、CPU深度进修平台哪家强?有人做了一个基准测试研究

发布时间:2019-09-05 20:40:35 所属栏目:建站 来源:机器之心
导读:GPU、TPU、CPU 都可以用于深度进修模子的实习,那么这几个平台各合用于哪种模子,又各有哪些瓶颈?在本文中,来自哈佛的研究者计划了一个用于深度进修的参数化基准测试套件ParaDnn,旨在体系地对这些深度进修平台举办基准测试。 ParaDnn 可以或许为全毗连(FC)、
副问题[/!--empirenews.page--]

GPU、TPU、CPU 都可以用于深度进修模子的实习,那么这几个平台各合用于哪种模子,又各有哪些瓶颈?在本文中,来自哈佛的研究者计划了一个用于深度进修的参数化基准测试套件——ParaDnn,旨在体系地对这些深度进修平台举办基准测试。

TPU、GPU、CPU深度进修平台哪家强?有人做了一个基准测试研究

ParaDnn 可以或许为全毗连(FC)、卷积(CNN)和轮回(RNN)神经收集天生端到端的模子。研究者行使 6 个现实模子对谷歌的云 TPU v2/v3、英伟达的 V100 GPU、以及英特尔的 Skylake CPU 平台举办了基准测试。他们深入研究了 TPU 的架构,显现了它的瓶颈,并重点先容了可以或许用于将来专业体系计划的名贵履历。他们还提供了平台的全面比拟,发明每个平台对某些范例的模子都有本身奇异的上风。最后,他们量化了专用的软件仓库对 TPU 和 GPU 平台提供的快速机能改造。

  • 论文:Benchmarking TPU, GPU, and CPU Platforms for Deep Learning
  • 论文链接:https://arxiv.org/pdf/1907.10701.pdf

常用硬件及基准都有啥

TPU v2 宣布于 2017 年 5 月,它是一款定制的专用集成电路(ASIC)。每个 TPU v2 装备可以或许在单板上提供 180 TFLOPS 的峰值算力。一年之后 TPU v3 宣布,它将峰值机能进步到了 420 TFLOPS。云 TPU 于 2018 年 2 月开始提供学术会见权限。这篇论文中行使的就是云 TPU。

英伟达的 Tesla V100 Tensor Core 是一块具有 Volta 架构的 GPU,于 2017 年宣布。

CPU 已经被证明在某些特定的用例中会越发得当实习,因此它也是一个重要的平台,应该被包括在较量内容中。

这项研究表白,没有一个平台在全部的场景中是最佳的。基于它们各自的特点,差异的平台可以或许为差异的模子提供上风。另外,因为深度进修模子的快速改造和变革,基准测试也必需一连更新并常常举办。

最近的基准测试好像都范围于恣意的几个 DNN 模子。只盯着闻名的 ResNet50 和 Transformer 等模子也许会获得误导性的结论。譬喻,Transformer 是一个大型的全毗连模子,它在 TPU 上的逊?з度比在 GPU 上快了 3.5 倍;可是,存眷这一个模子并不能显现 TPU 在高出 4000 个节点的全毗连收集上呈现的严峻的内存带宽瓶颈。这凸显了为某些模子去太过优化硬件和(或)编译器的风险。

新一代硬件基准测试

为了对最先辈的深度进修平台举办基准测试,这篇论文提出了一个用于实习的深度进修模子荟萃。为了支持普及和全面的基准测试研究,研究者引入了 ParaDnn 这一参数化的深度进修基准测试组件。ParaDnn 可以或许无缝地天生数千个参数化的多层模子,这些模子由全毗连(FC)模子、卷积神经收集(CNN)以及轮回神经收集(RNN)构成。ParaDnn 应承对参数局限在近乎 6 个数目级的模子长举办体系基准测试,这已经逾越了现有的基准测试的范畴。

研究者将这些参数化模子与 6 个实际模子团结起来,作为普及模子范畴内的奇异点,以提供对硬件平台的全面基准测试。表 1 总结了本文中描写的十 14 个调查功效和看法,这些调查和看法可觉得将来的特定规模架构、体系和软件计划提供开导信息。

TPU、GPU、CPU深度进修平台哪家强?有人做了一个基准测试研究

表 1:本文部门分组的首要调查和看法总结

研究者特意标志了通过 ParaDnn 获得的看法。他们从论文第 4 部门开始对 TPU v2 和 v3 的架构举办深入切磋,显现了算力中的架构瓶颈、内存带宽、多片负载以及装备-主机均衡(第 1 到 5 个调查)。论文第五部门提供了 TPU 和 GPU 机能的全面较量,突出了这两个平台的重要区别(第 6 到第 11 个调查)。最后的 3 个调查在论文第六部门有具体描写,切磋了专用软件仓库和量化数据范例带来的机能改造。

明晰本研究的范围性很是重要。这篇论文着重研究了今朝的架构和体系计划中可以优化的也许性,由于它们为将来的计划提供了名贵的履历。优化的细节不属于本文的研究范畴。譬喻,本文的说明只聚焦于实习而不是推理。作者没有研究多 GPU 平台或 256 节点 TPU 体系的机能,二者也许会导致差异的结论。

深度进修基准测试

深度进修(DL)最近的乐成驱动了关于基准测试组件的研究。现有的组件首要有两种范例:一是像 MLPerf,、Fathom、BenchNN、以及 BenchIP 这种现实的基准测试;二是 DeepBench、BenchIP 这类微基准测试,可是它们都有必然的范围。

这些组件仅包括本日已有的深度进修模子,跟着深度进修模子的快速成长,这些模子也许会过期。并且,它们没有显现深度进修模子属性和硬件平台机能之间的深刻看法,由于基准测试只是庞大的深度进修空间中的稀少点罢了。

ParaDnn 对这项研究现有的基准测试组件做出了增补,它具有以上这些要领的利益,方针是提供「端到端」的、可以或许涵盖现有以及将来应用的模子,而且将模子参数化,以试探一个更大的深度神经收集属性的计划空间。

TPU、GPU、CPU深度进修平台哪家强?有人做了一个基准测试研究

图 1:这篇文章中全部负载的可实习参数的数目。ParaDnn 中的模子参数范畴在 1 万到靠近十亿之间,如图所示,它要比现实模子的参数范畴更大,如图中的点所示。

硬件平台

作者对硬件平台的选择反应了在论文提交时,云平台上普及可用的最新设置。模子的具体指标在表 3 中。

TPU、GPU、CPU深度进修平台哪家强?有人做了一个基准测试研究

表 3:作为研究工具的硬件平台

尝试图表

图 2(a)–(c) 表白,这三种要领的 FLOPS 操作率是跟着 batch size 的增大而增大的。除此之外,全毗连收集的 FLOPS 操作率跟着每层节点数的增进而增大(图 2(a));卷积神经收集的 FLOPS 操作率跟着滤波器的增进而增大,轮回神经收集的 FLOPS 操作率跟着嵌入尺寸的增大而增大。图 2(a)–(c) 中的 x 轴和 y 轴是图 2(d)–(f) 中具有最大绝对值的超参数。

TPU、GPU、CPU深度进修平台哪家强?有人做了一个基准测试研究

(编辑:河北网)

【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!

热点阅读