加入收藏 | 设为首页 | 会员中心 | 我要投稿 河北网 (https://www.hebeiwang.cn/)- 科技、建站、经验、云计算、5G、大数据,站长网!
当前位置: 首页 > 云计算 > 正文

2019可信云大会丨清华研究生耿金坤:大规模分布式机器学习未来发展之我见

发布时间:2019-07-03 19:32:36 所属栏目:云计算 来源:中国IDC圈
导读:副问题#e# 7月2日,2019可信云大会在北京国际集会会议中心谨慎开幕。2019可信云大会以智能云网边,可信创将来为主题,由中国信息通讯研究院主办。 下战书13:30大会特设的智能云论坛勾当正式开始,MAXP大赛最佳案例得到者清华大学计较机系研究生耿金坤做了《大局限
副问题[/!--empirenews.page--]

7月2日,2019可信云大会在北京国际集会会议中心谨慎开幕。2019可信云大会以“智能云网边,可信创将来”为主题,由中国信息通讯研究院主办。

下战书13:30大会特设的智能云论坛勾当正式开始,MAXP大赛最佳案例得到者清华大学计较机系研究生耿金坤做了《大局限漫衍式呆板进修将来成长之我见》的出色演讲。

耿金坤

耿金坤

很兴奋,也很侥幸可以或许站在这个台上跟各人分享一下关于我的科研经验,以及团结本次角逐的经验,分享一点关于漫衍式呆板进修的风趣故事。

适才陈媛提到对付财富界来讲,也许更重要的是落地,对付高校来讲,更着重的是创新,也就是要往前看一步,从高校的角度来看,到底会有什么样的故事,跟各人聊一聊。

众所周知,我们今朝处在大数据驱动的AI期间,大数据成为业界常态有两个缘故起因:1.数据量在爆炸式增添。数据将在2020年到达175ZB。

2.模子伟大度不绝增进。今朝想要获得更高的精确度,拟合手段必需足够强,这个模子深度要跟上。往后很有也许还会再呈现2000层、3000层的收集,这使得单机基础没有步伐遭受。

在将来的成长进程中,只想靠一台单机条记本写300行,跑一个模子,圈一笔投资不太可行。此刻一提到呆板进修就是数据中心化,就是上云,动辄几百台乃至上千台局限的也有举办连系实习。

在大局限漫衍式进修中有哪些根基题目?首要有四个题目:

DML架构和参数同步算法

参数同步模式

数据/模子并行模式

新型加快技能的应用

基本架构与同步算法。

各人都在推本身的漫衍式框架,Tensorflow、PaddlePaddle等,无非就是有三种架构:

1.基于参数处事器的架构

轻微有点体系开拓履历的都知道,每个Work认真实习模子,然后把本身的参数推送到参数处事器,然后由worker推送下来,这是最根基的事变流。

2.基于Mesh的架构

3.基于Ring的架构

比拟,基于PS架构是最常用的,最经典的Tensorflow、MXNet都是支持PS架构,上风显而易见,被大都主流框架支持;陈设简朴;弹性扩展好;鲁棒性强。劣势是轻易发生中心化瓶颈。

基于Mesh负载越发平衡,但扩展性较量差。

基于Ring这个架构今朝被普及存眷,发源并不是漫衍式,发源于高机能,但各人一提到Ring都提到百度,着实百度并不是Ring的发现者,早在2009年由三个学者在一个论文中颁发这个算法,这个算法的利益是带宽最优,2017年百度一个科学家是以博客情势贴出来,广受存眷。带宽最优,意思是假如给定这样带宽资源,同步服从不行能做得比Ring更高,以是各人都很承认它。劣势是鲁棒性差,好比把全部的节点连成一个圈,只要有一个节点断掉,这个事变流就没有步伐举办,路棒性很差。

一个公司假如很有钱,或跟BAT协商好,搭一个私有集群来实习营业,私有集群就没有须要回收经典架构,扁平架构反而服从很低,可以思量回收模块化架构。BQ这种环境可以不消扁平式的算法,而可以回收据理化的算法举办高效同步。

参数同步模式。

SP、ASP、SSP三种模式。

BSP是今朝最常用的,若是此刻有三个节点,节点机能必定纷歧样,有的节点跑得快,有的节点跑得慢,有的节点率先把参数算出来,BSP要求每一次迭代时全部的节点都必需等最慢的节点算完往后,然后各人把本身的参数举办同步,同步完成往后同时开始第二次迭代。这个情势是非势都很明明,上风在于每一个worker下一次开始都能拿到最新的全局参数,意味着同步迭代质量很高,但劣势也很明明,那些跑的快的worker要等慢的worker,导致计较资源很洪流平被挥霍。

所觉得了办理这个题目回收ASP异步同步,就是没有同步,好比此刻worker2较量快,运行第0次迭代,就可以直接运行第1次迭代,所到达的参数就是有多新就多新,好比运行完第一次迭代往后,要举办参数同步,只能从Work0和1哪里拿到第0次迭代参数。ASP这种环境带来的题目是迭代质量偏低,原来BSP运行100次、200次就可以收敛,但ASP必要运行300次、400次,乃至异构性很强的话,这种环境有也许就不收敛。

因为这两个都有题目,既不消BSP也不消ASP,用SSP,就是应承同步的进程中回收旧的参数举办同步,但旧的参数可以或许旧到什么水平必需有一个阈值。假如以为比我慢一次迭代的参数,接管它。

比拟起来BSP实现简朴,在PS、现有主流框架中都被普及支持。甜头是算法在线性好,假如回收BSP举办漫衍式实习,初始化前提是给定的,算法模子是给定的,输入是给定的,不管运行100次、200次这样的算法都应该可以在线出沟通的功效。劣势是快节点必需等慢节点,机能严峻的被最慢者拖慢。

ASP上风是迭代速率快,不存在Straggler题目,劣势是捐躯了迭代质量,也许造成不收敛。SSP上风在BSP和ASP之间举办折中,必然水平上分身了迭代质量和迭代速率。劣势是必要对付Staleness Bound举办风雅调理,在一些环境下收敛速率乃至弱于BSP。

数据/模子并行模式。数据并行是把数据切成差异的份,别离放到差异的节点上。如这里有三个节点,每个节点能到一个完备的模子实例,数据有100G,每一个切成33G,每个节点一份一份读,读完往后各人同步,同步完成往后实习,实习往后再读。这种模式也是今朝最经典的实习,在以往数据量没有这么大,模子也没有这么伟大,各人都倾向于用这种方法举办实习。此刻跟着数据量变大、模子变大,也许各人开始思量回收一种模子并行方法。

这两种实习方法是非之处,举办五个维度比拟:同步开销、GPU操作率、负载平衡、Straggler题目、I/O扩展性。

同步开销。对付数据来讲,每次迭代要举办同步参数目,就是N个模子的参数,这个参数会很大,一个VGG模子是582兆,实习4个就是2-3个G,假如带宽手段跟不上的话,仅通讯就可以占很大的比例。对付模子并行传输只是每两个节点之间的边沿层,每个迭代只必要往外传几十兆的数据。

GPU操作率。这里讲GPU操作率有一个常常被忽略的题目,什么是GPU操作率?假如凭证界说的话,有两个点要思量,一个是操作率,一个是占据率。操作率,就是GPU只要有人用就被操作,操作率是百分之百,哪怕此刻没有效满这个核。占据里就是GPU在用,也许这里有32个线程,只用了12个,占据率是50%。

(编辑:河北网)

【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!

热点阅读