工程师们为人工智能瓶颈提供了智慧、实时的办理方案

发布时间：2020-06-15 10:16:42 所属栏目：创业来源：站长网

导读：[TechWeb]莱斯大学的研究职员展示了计划创新的以数据为中心的计较硬件的要领，以及将硬件与呆板进修算法配合计划的要领，这两种算法可以将能源服从进步两个数目级。呆板进修是自动驾驶汽车和很多其他高科技应用背后的人工智能情势，它的前进开创了一个新

[TechWeb]莱斯大学的研究职员展示了计划创新的以数据为中心的计较硬件的要领，以及将硬件与呆板进修算法配合计划的要领，这两种算法可以将能源服从进步两个数目级。

2020060901

呆板进修是自动驾驶汽车和很多其他高科技应用背后的人工智能情势，它的前进开创了一个新的计较期间——以数据为中心的期间，并迫使工程师们从头思索75年来险些没有受到挑衅的计较系统布局的各个方面。

电气与计较机工程助理传授林英彦（音）说：“题目是，对付今朝呆板进修最先辈的大局限深层神经收集来说，整个体系运行所需的90%以上的电力耗损在存储器和处理赏罚器之间的数据移动上。”。

Lin和相助者提出了两种互补的要领来优化以数据为中心的处理赏罚，这两种要领都在6月3日的国际计较机系统布局研讨会（ISCA）长举办了先容，这是有关计较机系统布局新头脑和研究的首要集会会议之一。

数据中心架构的驱动力与一个称为冯·诺依曼瓶颈（von Neumann瓶颈）的题目有关，这是一个服从低下的题目，源于计较架构中的内存和处理赏罚疏散，自1945年纪学家约翰·冯·诺依曼发现数据中心架构以来，这一题目一向占有着登峰造极的职位。通过将内存与措施和数据疏散，von Neumann架构应承一台计较机具有难以置信的多成果性；按照从内存中加载的存储措施，计较机可以用来举办视频通话、筹备电子表格或模仿火星上的气候。

可是将内存与处理赏罚分隔也意味着纵然简朴的操纵（如加2加2）也必要计较机处理赏罚器多次会见内存。深度神经收集中的大量操纵使这种影象瓶颈变得更糟，深度神经收集是通过“研究”大量先前示例来进修做出人道化决定的体系。收集越大，它可以完成的使命就越坚苦，而且表现的收集示例越多，它的执行结果就越好。深度神经收集实习也许必要专门的处理赏罚器库，这些处理赏罚器必要全天候运行一周以上。基于智能收集在智妙手机上执利用命可以在不到一个小时的时刻内讧尽电池电量。

赖斯高效智能计较（EIC）尝试室主任林说：“人们广泛以为，对付呆板进修期间的以数据为中心的算法，我们必要创新的以数据为中心的硬件架构，但呆板进修的最佳硬件架构是什么？“

她说：“没有一个谜底是全能的，由于差异的应用措施必要的呆板进修算法在算法布局和伟大度方面也许有很大的差异，同时具有差异的使命精度和资源耗损，如能源本钱、耽误和吞吐量折衷要求。很多研究职员正在举办这方面的研究，英特尔、IBM和谷歌等大公司都有本身的计划。”

在ISCA 2020上，Lin的小组做了一个陈诉，提供了实时的功效，这是她和她的门生为“内存处理赏罚”（PIM）开拓的一个创新架构，是一种将处理赏罚引入内存阵列的非von Neumann要领。一个有前程的PIM平台是“电阻随机存取存储器”（ReRAM），一种相同flash的非易失性存储器。尽量已经提出了其他的ReRAM-PIM加快器架构，但林说，在10多个深度神经收集模子上运行的尝试发明，当令的ReRAM-PIM加快器的能效进步了18倍，其计较密度是最具竞争力的最先辈ReRAM-PIM加快器的30倍以上。

TIMELY是“时域、内存执行、局部性”的缩写，它通过消除频仍会见主内存以处理赏罚中间输入和输出以及当地内存和主内存之间的接口而导致服从低下的首要身分来实现其机能。

在主存储器中，数据以数字方法存储，可是当将其带入当地存储器以举办内存中处理赏罚时，必需将其转换为模仿量。在早年的ReRAM PIM加快器中，功效值从模仿转换为数字，然后发送回主存储器。假如将它们从主存储器挪用到当地ReRAM以举办后续操纵，则它们将再次转换为模仿信号，依此类推。

通过行使当地存储器中的模仿名目缓冲区，实时停止了不须要的会见主存储器和接口数据转换的开销。这样，TIMELY险些可以将所需的数据保存在当地存储阵列中，从而大大进步了服从。

该小组在ISCA 2020上提出的第二个提议是SmartExchange，该计划团结了算法和加快器硬件创新以节减能源。

“会见主存储器（DRAM）的能量要比执行计较多耗费200倍，因此SmartExchange的要害头脑是逼迫执行算法中的布局，使我们可以将本钱较高的内存换成本钱更低的内存，本钱计较。”

她举例说：“譬喻，我们的算法有1000个参数。在传统要领中，我们将全部1,000个存储在DRAM中，并按照计较必要举办会见。行使SmartExchange，我们搜刮以找到这1,000此中的某些布局。然后，我们只必要存储10个，由于假如我们知道它们之间的相关， 10和别的的990，我们可以计较990中的任何一个，而不必从DRAM挪用它们“。

她说：“我们将这10个称为‘基本’子集，其设法是将它们存储在接近处理赏罚器的当职位置，以停止或大幅度镌汰为会见DRAM而付出的用度”。

研究职员行使SmartExchange算法及其自界说的硬件加快器对七个基准深度神经收集模子和三个基准数据集举办了尝试。他们发明，与最先辈的深度神经收集加快器对比，该组合将守候时刻镌汰了多达19倍。[TechWeb]

（编辑：河北网）

【声明】本站内容均来自网络，其相关言论仅代表作者个人观点，不代表本站立场。若无意侵犯到您的权利，请及时与联系站长删除相关内容!

首富马斯克谈成功？他	从先行者到制定者，轻
中国互联网的新一轮机	马斯克想辞职做专业网