500亿参数，支持103种语言：谷歌推出「全球文字翻译」模型

发布时间：2019-10-14 05:20:07 所属栏目：建站来源：机器之心编译

导读：因为缺乏平行数据，小语种的翻译一向是一浩劫题。来自谷歌的研究者提出了一种可以或许翻译 103 种说话的大局限多说话神经呆板翻译模子，在数据富厚和匮乏的语种翻译中都实现了明显的机能晋升。他们在 250 亿个的句子对长举办实习，参数目高出 500 亿。在已往

副问题[/!--empirenews.page--]

因为缺乏平行数据，小语种的翻译一向是一浩劫题。来自谷歌的研究者提出了一种可以或许翻译 103 种说话的大局限多说话神经呆板翻译模子，在数据富厚和匮乏的语种翻译中都实现了明显的机能晋升。他们在 250 亿个的句子对长举办实习，参数目高出 500 亿。

500äº¿å‚æ•°ï¼Œæ”¯æŒ103ç§è¯è¨€ï¼šè°·æŒæŽ¨å‡ºã€Œå…¨çƒæ–‡å—ç¿»è¯‘ã€æ¨¡åž‹

在已往的几年里，因为神经呆板翻译（NMT）的成长，呆板翻译（MT）体系的质量获得了明显晋升，冲破了天下各地的说话障碍。但 NMT 的乐成很洪流平上要归功于有监视的实习数据。那么，数据较少乃至没稀有据的说话该怎么办呢？多说话 NMT 是一种有用的办理要领，它有一种归纳成见，即「来自一种说话的进修信号应该有助于进步其他说话的翻译质量」。

多说话呆板翻译行使一种说话模子处理赏罚多种说话。数据匮乏语种多说话实习的乐成已经应用于自动说话辨认、文本转语音等体系。谷歌的研究者之前试探过扩展单个神经收集可以进修的说话数目，同时节制每种说话的实习数据量。但假如将全部限定身分都移除会产生什么？我们可否行使全部可用数据实习单个模子——纵然这些数据的巨细、剧本、伟大度和规模都各不沟通。

在一篇名为「Massively Multilingual Neural Machine Translation in the Wild: Findings and Challenges」的论文和后续几篇论文中，谷歌的研究者们在高出 250 亿的句子对上实习了一个 NMT 模子，这些句子是 100 多种说话与英语的互译，参数目高出 500 亿。他们获得了一种大局限多说话、大局限神经呆板翻译要领 M4，在数据富厚和匮乏的说话中都实现了明显的机能晋升，可以轻松顺应单个规模/说话，同时可以或许有用应用于跨说话下流迁徙使命。

大局限多说话呆板翻译

尽量跨说话对数据倾斜是 NMT 使命中的一大挑衅，但这种倾斜也为研究迁徙缔造了一种抱负景象，在一种说话上实习获得的信息可以应用到其他说话的翻译中。法语、德语、西班牙语等数据富厚的说话占有漫衍的一端，提供了数十亿的平行语料；约鲁巴语、信德语、夏威夷语等数据匮乏的说话占有漫衍的另一端，只有几万的语料。

500亿参数，支持103种说话：谷歌推出「环球笔墨翻译」模子

全部说话对的数据漫衍（取对数）和在每个特定说话对上实习获得的双语基线的相对翻译质量（BLEU 分数）。

行使全部可用数据（来自 103 种说话的 250 亿个样本）实习之后，研究者调查到，数据匮乏说话有着凶猛的正向迁徙倾向，30 多种说话的翻译质量获得了明显进步，数据漫衍尾部的 BLEU 分数均匀进步了 5 分。结果是已知的，但却很是激昂民气，由于较量是在双语基线（即只在特定说话对上实习获得的模子）和单个多说话模子之间举办的，后者拥有相同于单个双语模子的表征手段。这一发明表白，大局限多说话模子可以有用泛化，并且可以或许捕获大量说话之间的表征相似性。

500亿参数，支持103种说话：谷歌推出「环球笔墨翻译」模子

单个大局限多说话模子与双语基线模子之间的翻译质量比拟。

在一篇名为「Investigating Multilingual NMT Representations at Scale」的 EMNLP 2019 论文中，谷歌的研究者较量了多说话模子在多种说话中的表征手段。他们发明，多说话模子无需外部限定就能进修在说话学上相似的说话的共享表征，验证了恒久以来操作这些相似性的直觉和尝试功效。

在「Evaluating the Cross-Lingual Effectiveness of Massively Multilingual Neural Machine Translation」一文中，研究者进一步证明白这些进修到的表征在下流使命中跨说话迁徙的有用性。

500äº¿å‚æ•°ï¼Œæ”¯æŒ103ç§è¯è¨€ï¼šè°·æŒæŽ¨å‡ºã€Œå…¨çƒæ–‡å—ç¿»è¯‘ã€æ¨¡åž‹

全部 103 种说话编码表征聚类的可视化，基于表征相似性。差异的颜色代表差异的语系。

构建大局限神经收集

在增进数据匮乏的语种数目之后，数据富厚的语种翻译质量开始降落。这种降落在多使命配置中可以被调查到，由使命间的竞争和迁徙的单向性引起（即从数据富厚的说话到数据匮乏的说话）。研究职员试探了可以或许更好地进修和实现手段节制的算法，以此来办理这种负迁徙题目。在此进程中，他们还通过增进神经收集模子的参数目来进步其表征手段，以此来进步数据富厚说话的翻译质量。

进步神经收集的手段尚有其他几种要领，包罗添加层数、增进潜匿表征的宽度等。为了实习更深的翻译模子，研究者操作 GPipe 来实习 128 层、参数高出 60 亿的 Transformer。模子手段的进步使得全部说话的翻译质量都获得了明显晋升，BLEU 分数均匀进步了 5 分。他们还研究了深度收集的其他性子，包罗深度-宽度衡量、可实习性困难以及将 transformer 扩展到 1500 多层、840 亿参数的计划选择等。

（编辑：河北网）

【声明】本站内容均来自网络，其相关言论仅代表作者个人观点，不代表本站立场。若无意侵犯到您的权利，请及时与联系站长删除相关内容!

1/3

尾页

6个值得珍藏的搜索引擎	网站优化核心减少SEO污
网站seo优化三个基础知	什么时候宣布文章收录