提升12倍!香港浸会大学与MassGrid发布低带宽高效AI训练新算法
副问题[/!--empirenews.page--]
本文经AI新媒体量子位(公家号ID:QbitAI)授权转载,转载请接洽出处。 跟实在习数据量的增进和深度神经收集(DNN)的日益伟大,漫衍式计较情形(如GPU集群)被普及回收,以加快DNN的实习。漫衍式计较收集在呆板进修方面的瓶颈在于节点之间的数据传输服从,那如安在这一收集下高效地举办AI实习? 2018年,香港浸会大学异构计较尝试室与MassGrid相助,通过研究提出一种可用于低带宽收集的全局Top-k稀少化的漫衍式同步SGD算法,并通过尝试论证出在低带宽收集下也能高效举办AI实习。今朝尝试功效及相干论文已被ICDCS workshop收录。 数据并行的漫衍式同步随机梯度降落(S-SGD)要领是实习大局限神经收集常用的优化器之一。与单节点的SGD对比,S-SGD将事变负载分派给多个计较节点以加快实习,但它也引入了在每次迭代中互换模子参数或梯度的通讯开销。 举例声名 假设有P个节点用S-SGD实习DNN模子。在每次迭代中,全部计较节点城市回收差异的小批量(mini-batch)数据来并行计较模子的梯度。然后,对每个节点的梯度举办均匀其后更新模子,这便引入较大的通讯开销。 因为计较节点的加快器(如GPU和TPU)的计较手段比收集速率的增添快得多,收集通讯机能凡是成为实习的机能瓶颈,出格是当通讯与计较比率很高时。 很多大型IT公司行使昂贵的高速收集(如40 / 100Gbps IB或以太网)来镌汰通讯压力,但仍有很多研究职员和小公司只能行使由1Gig-Ethernet等低带宽收集毗连的斲丧级GPU。 为了降服通讯的机能瓶颈,可以通过行使更大的mini-batch来增进事变负载从而低落通讯与计较比,可能镌汰每次通讯进程中所需的通讯量:
在模子/梯度压缩技能中,Top-k稀少化是要害要领之一,它可以将每个节点梯度稀少到约为原本的千分之一(即 99.9%的梯度置为零而无需传输这些零值)。 Top-k稀少化是一种较有用的梯度压缩要领,相干研究已做举办了尝试和理论论证。 Top-k稀少化的S-SGD在每次迭代中只需传输少量的梯度举办均匀也不影响模子收敛或精度。然而,稀少化后的非零值梯度地址的索引位置在差异的计较节点是纷歧致的,这使得高效的稀少化梯度聚合成为一项挑衅。 在浓密梯度上行使基于环形的AllReduce要领(DenseAllReduce)的通讯伟大度为 O(P + m),个中 P为计较节点个数,m为参数/梯度的数目。而在Top-k稀少化中,假设每个节点的梯度浓密度为ρ,即 k = ρ×m ,由于每个节点非零值的对应的索引在差异节点是纷歧致的。 因此,每次通讯必要传输 2k个值(梯度值和索引)。回收AllGather对这2k个值举办聚合(简称TopKAllReduce)则必要O(kP)的通讯伟大度。当扩展到大局限集群时(即P很大),纵然k较小也仍会发生显著的通讯开销。 Top-k稀少化的首要头脑是基于这样一个究竟,即具有较大绝对值的梯度可觉得模子收敛做出更多孝顺。由于在Top-k算法中,纵然P个计较节点在聚合后最大可天生 k×P个非零值梯度,但最高绝对值最大的 k个梯度值对付模子更新则更重要。 基于这一调查,香港浸会大学异构计较尝试室与MassGrid的研究职员,提出了一种有用的Top-k稀少化要领来办理TopKAllReduce的低效题目。 详细而言,按照差异节点的梯度绝对值来选择全局的Top-k(简称gTop-k)梯度。在本文中,研究职员首要接头行使AllReduce的漫衍式S-SGD来应用gTop-k稀少化,但它也合用于基于参数处事器的漫衍式S-SGD。 gTop-k可以很好地操作树布局从全部节点中选择全局top-k值,并称之为gTopKAllReduce,而通讯伟大性从原本的O(kP)镌汰到O(klogP)。表1中总结了差异梯度聚合要领的通讯伟大度。 在尝试研究及所颁发的论文中首要孝顺如下:
实习要领 gTop-k的要害头脑 在Top-k S-SGD中,每个节点在当地选出k个梯度值,然后全部节点举办聚合获得。研究职员发明并非全部(其非零元素数目为且)都有助于模子收敛。 详细来说,可以进一步稀少化为,这样每次模子更新只必要更少数目的非零梯度。换句话说,可以进一步从中选择top-k个最大绝对值的梯度(暗示为)来更新模子,同时担保模子的收敛速率。一个4节点的示譬喻图1所示。 △ 图1 从Top-k算法中的最多k×P个非零值进一步选择k个梯度示例 (编辑:河北网) 【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容! |