大三门生独自破解逆天AI模子

发布时间：2019-06-10 15:44:51 所属栏目：建站来源：问耕

导读：本文经AI新媒体量子位（公家号ID:QbitAI）授权转载，转载请接洽出处。 GPT-2，一个逆天的 AI。本年 2 月，OpenAI 初次对外发布了这个模子的存在。GPT-2 写起文章来文思泉涌毫无违和感，无需针对性实习就能横扫各类特定规模的说话建模使命，还具备阅读领略

本文经AI新媒体量子位（公家号ID:QbitAI）授权转载，转载请接洽出处。

GPT-2，一个逆天的 AI。

本年 2 月，OpenAI 初次对外发布了这个模子的存在。GPT-2 写起文章来文思泉涌毫无违和感，无需针对性实习就能横扫各类特定规模的说话建模使命，还具备阅读领略、问答、天生文章择要、翻译等等手段。

但差异通俗的是，这个模子并没有真的开源。OpenAI 给的表明是，它过分强盛，我们不敢放出完备模子……尽量因此被外界讥笑，但 GPT-2 如故关闭至今。

此刻，有人单枪匹马，破解了 OpenAI 不欲人知的奥秘。

并且，是一个大三的门生。

来自慕尼黑家产大学的 Connor Leahy 同窗，在两个月的时刻里，支付了 200 个小时的时刻，耗费了约莫 6000 人民币，复现了 GPT-2 项目。

这件事在推特上激发了浩瀚存眷。传颂 Awesome 的有之，深入接头的有之，乃至连 OpenAI 的几位资深研究员，都赶来雷同。

其它让人服气的是，Connor Leahy 同窗关于呆板进修的常识，都是操作空闲时刻自学而成。他形容本身是一个布满好奇心的本科生。

“我只是把别人出去撩妹的时刻，用来搞 AI 尝试了罢了。”

大三门生独自破解逆天AI模子

一气之下

GPT-2 是 OpenAI 最棒的研究成就。

这个模子是 GPT 的“进化版”，最大区别就在于局限巨细。GPT-2 参数到达了 15 亿个，行使了包括 800 万个网页的数据集来实习，共有 40GB。

行使说话建模作为实习信号，以无监视的方法在大型数据集上实习一个 Transformer，然后在更小的监视数据集上微调这个模子，以辅佐它办理特定使命。

大三门生独自破解逆天AI模子
GPT 模子

OpenAI 的研究职员暗示，在各类特定规模数据集的说话建模测试中，GPT-2 都取得了优秀的分数。作为一个没有颠末任何规模数据专门实习的模子，它的示意，比那些专为特定规模打造的模子还要好。

除了能用于说话建模，GPT-2 在问答、阅读领略、择要天生、翻译等等使命上，无需微调就能取得很是好的后果。

GPT-2 宣布后，深度进修之父 Hinton 献出了他注册 Twitter 以来的第三次评述：“这应该能让硅谷的独角兽们天生更好的英语了。”

关于这个模子的强盛示意，可以参考量子位之前的报道，这里不再赘述。

总之，就是一个字：强。

就是由于强，OpenAI 做了一个艰巨的抉择：不把完备的模子放出来给各人。他们先是放出了不到异常之一局限、1.17 亿个参数的小型版本，被吐槽几个月后又放出了 3.45 亿参数的中型版本。

毫无疑问，GPT-2 引发了 Connor Leahy 同窗的好奇心，同时，OpenAI 私藏这个模子的抉择，也让他很是气愤。“信息应该是自由的。”

于是他抉择本身下手复现出来。

他不可是由于一时激动。对付为什么要复现 GPT-2，Connor Leahy 同窗在本身的博客里有长长的思索，个中包罗与其畏惧 AI 编造的假消息，不如起劲动作起来，让各人意识到这个题目，大胆面临然后想步伐办理。

虽然尚有另一个缘故起因，他认为这么做：

很酷。

大三门生独自破解逆天AI模子

复现版 GPT-2

“你怎么知道本身乐成复现了 15 亿参数的 GPT-2 模子？”

这个题目，生怕绝大大都人都想知道谜底。

Connor Leahy 同窗给出的回应是：两个模子的巨细和参数目沟通，基于相似的数据源实习，行使了相同的计较资源，并且输出功效质量相仿。

他也给出了两者的一些明晰差异，例如：

1、dropout 和 learning rate 官方没有披露，以是配置也许纷歧样。

2、模子实习行使了 Adafactor 而不是 Adam。Connor Leahy 同窗不知道怎么把 15 亿参数 +Adam 塞进 TPU，即便 16bit 精度也不可。

哎？等下……

一个普平凡通的大三门生，怎么能用到 TPU 搞这种研究？

感激 Google。

Google 有一个 Tensorflow Research Cloud（TFRC）打算。这个打算面向研究职员，提供 1000 个 Cloud TPU 构成的集群，完全免费。这个打算用于支持多种必要大量计较而且无法通过其他途径实现的研究项目。

大三门生独自破解逆天AI模子

其时 Connor Leahy 同窗在研究 GPT-2 复现的时辰，碰着了计较资源的瓶颈，然后随口跟 TFRC 团队提了一嘴，功效却获得了 Google 慷慨的支持。

现实上，在推进这个项目之前，Connor Leahy 同窗从来没有行使过 TPU。以是，他在博客中热情的对 Google 团队表达了感激。

不外，他照旧在云端耗费了约莫 600-800 欧元（人民币 6000 元阁下），用于建设数据集、测试代码和运行尝试。

他用的条记本是一台旧的 ThinkPad。

Connor Leahy 同窗还对降噪耳机表达了感激：让我保持平安。

今朝，复现版的 GPT-2 已经放在 GitHub 上开源，代码可以在 GPU、TPU 以及 CPU 上跑（不提议）。此刻作者放出了两个版本，一个是 1.17 亿参数的小型版本，一个是称为 PrettyBig 的版本，比 3.45 亿参数的官方中型版稍大一点，也是今朝果真的最大 GPT-2 模子。

至于 15 亿参数的完备版，作者打算 7 月 1 日宣布。

现阶段，Connor Leahy 同窗约请各人下载试用，跟他一路接头复现版 GPT-2 到底尚有什改造空间。在关于这件的博客文章里，他说：我 100% 能接管各人指出的任何错误，假如你发明题目请与我接洽。

关于作者和传送门

大三门生独自破解逆天AI模子

Connor Leahy 同窗 2017 年考入德国慕尼黑家产大学，今朝是一名大三的计较机本科门生。在 LinkedIn 上，他说本身对人工智能布满热情。

从 2018 年 9 月迄今，他还在马克思普朗克研究所演习，也在用来自 Google 的 TPU，研究正经的 AI 课题。

最后，放一下传送门。

Connor Leahy 同窗布满思索的博客：

https://medium.com/@NPCollapse/gpt2-counting-consciousness-and-the-curious-hacker-323c6639a3a8

与他在 GitHub 相见吧：

https://github.com/ConnorJL/GPT2

（编辑：河北网）

【声明】本站内容均来自网络，其相关言论仅代表作者个人观点，不代表本站立场。若无意侵犯到您的权利，请及时与联系站长删除相关内容!

6个值得珍藏的搜索引擎	网站优化核心减少SEO污
网站seo优化三个基础知	什么时候宣布文章收录