公共云巨头微软公司如何争夺HPC霸主地位

发布时间：2019-12-25 08:44:32 所属栏目：云计算来源：企业网D1Net

导读：副问题#e# 微软Azure将Cray XC系列超等计较机和CS Storm集群应用到其民众云中已有两年多的时刻，今朝尚不清晰有几多用户回收了Cray公司(此刻是HPE公司的一部门)的产物。但愿在民众云平台上运行高机能计较(HPC)和人工智能事变负载(尤其是GPU加快的事变负载)

副问题[/!--empirenews.page--]

微软Azure将Cray XC系列超等计较机和CS Storm集群应用到其民众云中已有两年多的时刻，今朝尚不清晰有几多用户回收了Cray公司(此刻是HPE公司的一部门)的产物。但愿在民众云平台上运行高机能计较(HPC)和人工智能事变负载(尤其是GPU加快的事变负载)的用户更有也许将现有实例集群齐集在一路以建设假造超等计较机。

可是，微软公司很是盼愿在Azure民众云平台上成立高机能计较(HPC)营业，从而让用户在外面上和感受上都像在本身的数据中心中陈设的集群一样，从而消除体验差别。

微软公司日前在丹佛进行的SC19超等计较机集会会议上公布，Azure新实例将在技能预览版中宣布，它现实上是微软公司正在选定地域陈设的100节点集群中的一个节点(今朝还不清晰是哪一个节点)。这个名为NDv2的高机能计较(HPC)实例显然同样合用于运行呆板进修实习事变负载以及GPU加快事变负载。NDv2实例是基于一个HGX的Tesla V100 GPU加快器绑缚在一路共享数据，通过NVLink(可以把它想象成Nvidia的DGX-2体系中一半的GPU复合体，个中抽出了NVSwitch，并在这些GPU之间直接引导NVLink，这样它们就可以寻址互相的32GB HBM2内存)。这个GPU计较组件毗连到主机CPU体系，该主机CPU体系基于一对20个“Skylake” Xeon SP-6168 Platinum焦点处理赏罚器，该处理赏罚器运行在2.7 GHz频率上，并安装在微软公司本身开拓的“Project Olympus”体系中。处事器节点具有672 GB的内存，这表白某个处全部一个假造机打点措施会耗损一些内存资源。预计也许是96GB，而且这个超等计较机在其24个内存插槽中装有64GB的内存条。

每个NDv2节点都有一个100Gb/秒的ConnectX-5收集接口卡，可以和100 Gb/秒的EDR InfiniBand互连，这显然是从Mellanox科技公司哪里得到的技能，Nvidia公司正在收购该公司。多年来，以太网已切换到微软公司的Azure民众云中。今朝尚不清晰微软公司正在行使哪种拓扑来彼此链接NDv2实例，可是揣摩它是高机能计较(HPC)和人工智能事变负载中凡是行使的FatTree拓扑，而不是超大局限厂商和云计较供给商凡是行使的拓扑。Nvidia公司副总裁兼加快计较总司理Ian Buck暗示，NDv2中的呆板将以8台处事器为一个单位的情势出售，总共有64个GPU，这意味着跟着用户扩展他们的NDv2集群，他们正在购置一棵FatTree的相邻分支。知道这一点，人们也许会以为NDv2的高端Pod是96个节点，带有768个GPU，可是被奉告现实上是100个节点，总共有800个GPU。

这些体系显然是在运行某些Linux变体的环境下配置的(CentOS或Ubuntu Server是默认版本，但Red Hat Enterprise Linux和SUSE Linux Enterprise Server也是一个很好的选项)，而且可以通过以下方法得到完备的Nvidia软件仓库：Nvidia NGC云或Azure市场。微软公司暗示已经安装了Mellanox OFED收集驱动措施(就像有任何其他选择一样)，而且支持全部MPI范例和版本。显然，某处有一个假造机打点措施，或许是Hyper-V，微软公司用来构建Azure云。Hyper-V运行时，没有任何机能降落的迹象。

微软公司今朝还没有正式发布其订价，但有动静表白，每个NDv2实例的订价将为26.44美元。可是必要相识全部的GPU机能和内存带宽带来的承担。并且，纵然客户没有充实操作InfiniBand收集的本钱，也必需为此付出用度。

假如没有任何数据存储处事，用户将一个96节点的集群运行三年将会耗费6,675万美元，而且这个超等计较机将具有5.76 petaflops的总峰值双精度机能。DGX-1V具有8个Tesla V100和两个Xeon处理赏罚器，大抵相同于微软公司为NDv2实例组装的节点，当前价值为119,000美元(低于两年前宣布时的169,000美元)。因此，个中96台处事器将耗费1140万美元，个中包罗大量的当地闪存和4倍的收集带宽。这些用度并没有包罗电源、冷却、房地产、体系打点或InfiniBand的互换机和布线本钱，可是假如用户将其向后计较并在四年内摊销，则仅硬件就具有沟通的5.76 petaflops的机能，而且可以计较出DGX-1节点的用度为每小时4.53美元，用户自行包袱构建一个96节点集群的本钱，并相识怎样较量它们的承担。可能，相等于ODM和OEM处事器的本钱，乃至比Nvidia公司的价值还要低。微软公司为其民众云上的高机能计较(HPC)配置了上限。

这里要思量的另一件事是操作率。为了举办论证，假设一个内部DGX-1集群每小时仅需耗费10美元，仅用于计较和联网，而无需来自Pure Storage或DataDirect Networks的当地闪存存储阵列，也无需行使Excelero、Vast Data或Lightbits自产尝试室软件界说的存储。假如企业拥有本身的殽杂CPU-GPU集群，而且只在50%的时刻内行使它，那么现实上每小时要付出20美元才气拥有该集群。因此，云计较与内部陈设之间的差距很快就消除了。可是，用户也可以行使ODM或OEM处事器来低落本钱，譬喻海潮、Supermicro、戴尔、HPE公司的处事器，而价值却要比Nvidia公司要低得多，或许镌汰40%的本钱。这样可以低落一些总本钱，但也许不会到达用户的祈望。假如进步操作率，那么每小时的当地本钱也会降落。这里要相识的是，操作率是抉择身分，而操作率模式也许会驱动用户选择在内部陈设和云平台陈设几多容量。可能只需打点全部这些，然后将其所有移至云中就可以。一些高机能计较(HPC)和人工智能从颐魅者会这样做，由于他们不会大局限运作。

除了NDv2实例之外，微软公司还将预览其基于64核“Rome”Epyc 7742处理赏罚器的HBv2假造机，个中60个焦点处理赏罚器用在Hyper-V假造机打点措施之上。基本节点有两个这样的处理赏罚器，焦点处理赏罚器的运行频率为2.25 GHz，最高可晋升至3.4 GHz。微软公司暗示，两路HBv2节点可以双精度提供4teraflops的总峰值浮点机能，另外，它已经成立的收集可以行使MPI超过8万个焦点处理赏罚器，Azure地区内峰值容量的5.36 petaflops。趁便说一下，这些节点行使Mellanox的200Gb/秒的HDR InfiniBand互连，这是在民众云上初次行使HDR InfiniBand。HBv2实例具有480GB的可供给用措施行使的内存，并在两个插槽之间提供350GB/秒的内存带宽。每小时收费3.96美元。凭证微软公司在HBv2实例上为其HDR收集提供的所有MPI可扩展性限定(也许是672个节点)，每小时仅需耗费2,661美元，即可行使按需实例租用5.36 petaflops云。其预留实例尚不行用，这将明显低落价值。

（编辑：河北网）

【声明】本站内容均来自网络，其相关言论仅代表作者个人观点，不代表本站立场。若无意侵犯到您的权利，请及时与联系站长删除相关内容!

1/3

尾页

探查云原生数据库	我们一起分析IT系统应
Longhorn 高级利用之备	云原生 PostgreSQL 集