谷歌开源 GPipe,训练更大模型、不调整超参扩展性能
谷歌开源了一个漫衍式呆板进修库 GPipe,这是一个用于高效实习大局限神经收集模子的库。 GPipe 行使同步随机梯度降落和管道并行举办实习,合用于由多个持续层构成的任何 DNN。重要的是,GPipe 应承研究职员轻松陈设更多加快器来实习更大的模子,并在不调解超参数的环境下扩展机能。 开拓团队在 Google Cloud TPUv2s 上实习了 AmoebaNet-B,,其具有 5.57 亿个模子参数和 480 x 480 的输入图像尺寸。该模子在多个风行数据集上示意精采,包罗将 single-crop ImageNet 精度推至 84.3%,将 CIFAR-10 精度推至 99%,将 CIFAR-100 精度推至 91.3%。 GPipe 可以最大化模子参数的内存分派。团队在 Google Cloud TPUv2长举办了尝试,每个 TPUv2 都有 8 个加快器焦点和 64 GB 内存(每个加快器 8 GB)。假如没有 GPipe,因为内存限定,单个加快器可以实习 8200 万个模子参数。因为在反向撒播和批量支解中从头计较,GPipe 将中间激活内存从 6.26 GB 镌汰到 3.46GB,在单个加快器上实现了 3.18 亿个参数。另外,通过管道并行,最大模子巨细与预期分区数成正比。通过 GPipe,AmoebaNet 可以或许在 TPUv2 的 8 个加快器上插手 18 亿个参数,比没有 GPipe 的环境下多 25 倍。 焦点 GPipe 库今朝开源在 Lingvo 框架下。 详细道理可以查察谷歌的宣布通告。 【编辑保举】
点赞 0 (编辑:河北网) 【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容! |