加入收藏 | 设为首页 | 会员中心 | 我要投稿 河北网 (https://www.hebeiwang.cn/)- 科技、建站、经验、云计算、5G、大数据,站长网!
当前位置: 首页 > 移动互联 > 正文

环球十大AI实习芯片大盘货

发布时间:2019-10-15 06:09:21 所属栏目:移动互联 来源:乾明
导读:本文经AI新媒体量子位(公家号ID:QbitAI)授权转载,转载请接洽出处。 AI芯片哪家强?此刻,有直接的比拟与参考了。 英国一名资深芯片工程师James W. Hanlon,盘货了当前十大AI实习芯片。 并给出了各个指标的横向比拟,也是今朝对AI实习芯片最新的接头与梳
副问题[/!--empirenews.page--]

本文经AI新媒体量子位(公家号ID:QbitAI)授权转载,转载请接洽出处。

AI芯片哪家强?此刻,有直接的比拟与参考了。

英国一名资深芯片工程师James W. Hanlon,盘货了当前十大AI实习芯片。

并给出了各个指标的横向比拟,也是今朝对AI实习芯片最新的接头与梳理。

个中,华为昇腾910是中国芯片厂商独一入选的芯片,其机能怎样,也在这一比拟中有了揭示。

环球十大AI实习芯片大盘货:华为昇腾910是中国独一入选

△ *代表展望,†代表单芯片数据。

Cerebras Wafer-Scale Engine

环球十大AI实习芯片大盘货:华为昇腾910是中国独一入选

这一芯片于本年8月份正式面世,名为“晶圆级引擎”(Cerebras Wafer Scale Engine,简称WSE)。

其最大的特性是将逻辑运算、通信和存储器集成到单个硅片上,是一种专门用于深度进修的芯片。

一举创下4项天下记载:

  • 晶体管数目最多的运算芯片:总共包括1.2万亿个晶体管。固然三星曾造出2万亿个晶体管的芯片,却是用于存储的eUFS。
  • 芯单方面积最大:尺寸约20厘米×23厘米,总面积46225平方毫米。
  • 片上缓存最大:包括18GB的片上SRAM存储器。
  • 运算焦点最多:包括410,592个处理赏罚焦点

之以是可以或许有云云亮眼的数据,直接得益于其集成了84个高速互连的芯片,单个芯片在FP32上的峰值机能示意为40 Tera FLOPs,芯片功率达15千瓦,与AI集群相等。

片上缓存也到达了18GB,是GPU缓存的3000倍;可提供每秒9PB的内存带宽, 比GPU快10,000倍。

晶片局限集成,并不是一个新的设法,但产量、功率传输和热膨胀相干的题目使其很难贸易化。在这些方面,Cerebras都给出了响应的办理步伐:

  • 为了办理缺陷导致良率不高的题目,Cerebras在计划的芯片时辰思量了1~1.5%的冗余,添加了特另外焦点,当某个焦点呈现题目时将其屏障不消,因此有杂质不会导致整个芯片报废。
  • Cerebras与台积电相助发现了新技能,来处理赏罚具有万亿加晶体管芯片的刻蚀和通信题目。
  • 在芯片上方安装了一块“冷却板”,行使多个垂直安装的水管直接冷却芯片。

Cerebras公司由Sean Lie(首席硬件架构师)、Andrew Feldman(首席执行官)等人于2016年创建。后者曾建设微型处事器公司SeaMicro,并以3.34亿美元的价值出售给AMD。

该公司在加州有194名员工,个中包罗173名工程师,迄今为止已经从Benchmark等风谋利构得到了1.12亿美元的投资。

拓展阅读:

史上最大AI芯片降生:462平方厘米、40万焦点、1.2万亿晶体管,创下4项天下记载

Google TPU(v1、v2、v3)

Google TPU系列芯片正式宣布于2016年,第一代芯片TPU v1只用于推理,并且只支持整数运算。

通过在PCIe-3之间发送指令来执行矩阵乘法和应用激活函数,从而为主机CPU提供加快,节减了大量的计划和验证时刻。其首要数据为:

  • 芯单方面积331平方毫米,28nm制程
  • 频率为700 MHz,功耗28-40W
  • 片上存储为28 MB SRAM:24MB 用于激活,4MB 用于累加器
  • 芯单方面积比例:35%用于内存,24%用于矩阵乘法单位,剩下的41%面积用于逻辑。
  • 256x256x8b紧缩矩阵乘法单位(64K MACs/cycle)
  • Int8和 INT16算法(峰值别离为92和23 TOPs/s)

IO数据:

  • 可以通过两个接口会见8 GB DDR3-2133 DRAM,速率为34 GB/s
  • PCIe-3x16 (14 GBps)

2017年5月,Google TPU v2宣布,改造了TPU v1的浮点运算手段,并加强了其内存容量、带宽以及HBM 集成内存,不只可以或许用于推理,也可以或许用于实习。其单个芯片的数据如下:

  • 20nm制程,功耗在200-250W(展望)
  • BFloat16上机能示意为45 TFLOPs,也支持 FP32
  • 具有标量和矩阵单位的双核
  • 集成4块芯片后,峰值机能为180 TFLOPs

单核数据:

  • 128x128x32b紧缩矩阵单位(MXU)
  • 8GB专用HBM,接入带宽300 GBps
  • BFloat16上的最大吞吐量为22.5 TFLOPs

IO数据:

  • 16Gb HBM集成内存,600 GBps带宽(展望)
  • PCIe-3 x8 (8 GBps)

Google TPU v2宣布一年之后,Google再度宣布新版芯片——TPU v3。

环球十大AI实习芯片大盘货:华为昇腾910是中国独一入选

但关于TPU v3的细节很少,很也许只是对TPU v2一个渐进式改版,机能示意翻倍,增进了HBM2内存使容量和带宽翻倍。其单个芯片的数据如下:

  • 16nm或12nm制程,功耗预计在200W
  • BFloat16的机能为105 TFLOPs,也许是MXUs的2倍到4倍
  • 每个MXU都能会见8GB的专用内存
  • 集成4个芯片后,峰值机能420 TFLOPs

IO数据:

  • 32GB的HBM2集成内存,带宽为1200GBps (展望)
  • PCIe-3 x8 (8 GBps)(展望)

拓展阅读:

想相识TPU 3.0?Jeff Dean保举看看这段视频

Graphcore IPU

Graphcore创立于创立于2016年,不只备受成本和业界巨头的青睐,还颇受业内大佬的承认。

2018年12月,公布完成2亿美元的D轮融资,估值17亿美元。投资方有宝马、微软等业界巨头,尚有闻名的风投公司Sofina、Atomico等。

AI巨头Hinton、DeepMind首创人哈萨比斯,都直接表达了歌咏。

(编辑:河北网)

【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!

热点阅读