加入收藏 | 设为首页 | 会员中心 | 我要投稿 河北网 (https://www.hebeiwang.cn/)- 科技、建站、经验、云计算、5G、大数据,站长网!
当前位置: 首页 > 创业 > 正文

我研究了最热点的200种AI器材,却发明这个行业有点饱和

发布时间:2020-07-22 01:20:17 所属栏目:创业 来源:站长网
导读:副问题#e# 在 LinkedIn 上,许多你申请的呆板进修地位都有高出 200 名竞争者。在 AI 器材上人们也有这么多选择吗? 为了完备相识呆板进修技能应用的近况,结业于斯坦福大学,曾就职于英伟达的工程师 Chip Huyen 抉择评测今朝市面上全部能找到的 AI / 呆板学
副问题[/!--empirenews.page--]

在 LinkedIn 上,许多你申请的呆板进修地位都有高出 200 名竞争者。在 AI 器材上人们也有这么多选择吗?

为了完备相识呆板进修技能应用的近况,结业于斯坦福大学,曾就职于英伟达的工程师 Chip Huyen 抉择评测今朝市面上全部能找到的 AI / 呆板进修器材。

在搜刮种种深度进修全栈器材列表,接管人们的保举之后,作者筛选出了 202 个较为热点的器材举办评测。最近,她的统计功效让呆板进修社区感想有些惊奇。

 

起主要留意的是:

这一列表是在 2019 年 11 月列出的,最近开源社区也许会有新器材呈现。

有些科技巨头的器材列表复杂,无法逐一罗列,好比 AWS 就已经提供了高出 165 种呆板进修器材。

有些创业公司已经消散,其提出的器材不为人们所知。

作者以为泛化呆板进修的出产流程包罗 4 个步调:

项目配置

数据 pipeline

建模和实习

处事

作者依据所支持的事变步调将器材举办分类。项目配置这一步没有算在内,由于它必要项目打点器材,而不是呆板进修器材。因为一种器材也许不止用于一个步调,以是分类并不简朴。「我们打破了数据科学的极限」,「将 AI 项目转变为实际天下的商务成就」,「应承数据像您呼吸的氛围一样自由移动」,以及作者小我私人最喜好的「我们赖以保留和呼吸的数据科学」,这些迷糊其词的表述并没有让题目变得更简朴。

器材的时刻演变过程

作者追溯了每种器材宣布的年份。假如是开源项目,则查察初次提交,以查察项目开始果真的时刻。假如是一家公司,则查察该公司在 Crunchbase 上的开办年份。然后她绘制了跟着时刻的推移,每个种别中器材数目的变革曲线。详细如下图所示:

我研究了最热点的200种AI器材,却发明这个行业有点饱和

不出所料,数据表白,跟着 2012 年深度进修的再起,该规模才开始呈爆炸式增添。

AlexNet 之前(2012 年之前)

直到 2011 年,该规模如故以建模实习器材为主导,有些框架(好比 scikit-learn)如故很是风行,有些则对当前的框架(Theano)发生了影响。2012 年早年开拓出来且至今仍在行使的一些器材要么完成 IPO(如 Cloudera、Datadog 和 Alteryx),要么被收购(Figure Eight),要么成为受社区接待并起劲开拓的开源项目(如 Spark、Flink 和 Kafka)。

开拓阶段(2012-2015)

跟着呆板进修社区回收「let’s throw data at it」的要领,呆板进修空间就酿成了数据空间。当观测每个种别中每年开拓出的器材数目时,这一点越发明明。2015 年,57%(82 个器材中有 42 个)的器材都是数据 pipeline 器材。详细如下图所示:

我研究了最热点的200种AI器材,却发明这个行业有点饱和

出产阶段(2016 年至今)

每小我私人都知道越基本的研究越重要,但大大都公司都无法支持研究职员举办纯技能偏向的试探——除非可以或许看到短期贸易好处。跟着呆板进修研究、数据和已实习模子数目的增多,开拓者和机构的需求增进,市场对付呆板进修器材的需求也有了庞大的增添。

2016 年,谷歌公布将神经呆板进修技能应用到谷歌翻译中,这是深度进修在实际天下里初次落地的重要符号。

这一全景图仍不完备

AI 创业公司此刻已经有许多了,但它们大大都都面向技能的落地(提供面向斲丧者的应用),而不是提供开拓器材(如向其他公司售卖框架和软件开拓包)。用风险投资的术语来说,大大都初创公司都是垂直 AI 规模里的。在福布斯 2019 年发布的 50 大 AI 初创公司里,只有 7 家是以呆板进修开拓器材为主业的。

对付大大都人来说,应用更为直观。你可以走进一家公司说:「我们可以让你们的一半客服事变实现自动化。」器材实现的代价老是间接的,但又深入整个生态体系。在一个市场中,许多公司都可以提供沟通的应用,但其背后用到的器材却只有寥寥几种。

颠末大量搜刮和比对,在这里作者只列出了 200 余个 AI 器材,相对付传统计较机软件工程来嗣魅这个数字很小。假如你想评测传统的 Python 应用开拓,你可以用谷歌几分钟内找出至少 20 个器材,但假如你想试试呆板进修模子,工作就完全纷歧样了。

呆板进修器材面对的题目

许多传统的软件器材都可以用于开拓呆板进修应用。可是在呆板进修应用中,也有许多挑衅是独占的,必要非凡的器材。

在传统软件开拓流程中,写代码是最难的一步,但在呆板进修事变中,写代码只是整个流程中淹灭精神较小的一部门。开拓一个可以带来很大机能晋升,而且在实际天下中可以落地的新模子很是淹灭时刻和资金。大大都公司城市选择不去开拓新模子,而是直接拿来就用。

对付呆板进修来说,行使最多 / 最好数据的应用总会得胜。以是与其专注于晋升深度进修算法,大大都公司城市耗费大量时刻晋升数据的质量。由于数据的变革老是很快,呆板进修应用也必要快速的开拓和陈设。在许多例子中,你乃至必要天天都陈设新的模子。

另外,ML 算法的局限也是一个题目。预实习的大局限 BERT 模子具有 3.4 亿参数,巨细为 1.35GB。纵然 BERT 模子可以拟合手机等斲丧类装备,但在新样本上运行推理所淹灭的大量时刻就使其对付实际天下的浩瀚应用毫无用处。

试想,假如自动补全模子提醒下一个字符所耗费的时刻比用户本身键入的时刻还要长,那么有什么须要用这个模子呢?

Git 通过逐行的差别较量实现了版本节制,因而对大大都传统软件工程措施的结果很好。可是,Git 并不合用于数据库可能模子搜查点的版本节制。Panda 对大大都传统数据框操纵的结果很好,但在 GPU 上不起浸染。

CSV 等基于行的数据名目对付行使较少数据的应用有很好的结果。可是,假如你的样本具有许多特性,而且你只想操作个中的一个子特性,则行使基于行的数据名目依然必要你加载全部的特性。PARQUET 和 OCR 等柱状文件名目针对这种用例举办了优化。

ML 应用面对的一些题目如下所示:

监测:怎么知道你的数据漫衍已经改变以及必要从头实习模子?

数据标注:怎样快速地标注新数据,可能为新模子从头标注现稀有据?

CI/CD 测试:因为你不能花几天的时刻等着模子实习和收敛,以是怎样运行测试以确保每次改变后模子像祈望地那样运行?

陈设:怎样封装和陈设新模子可能替代现有模子?

模子压缩:怎样压缩 ML 模子使其拟合斲丧类装备?

推理优化:假如加快模子的推理时刻?是否可以将全部操纵融合在一路?是否可以回收更低精度?缩小模子或者可以加快推理进程。

边沿装备:硬件运行 ML 算法速率快且本钱低。

隐私:如安在掩护隐私的同时操浸染户数据来实习模子?怎样使流程切合《通用数据掩护条例》(GDPR)?

在下图中,作者按照开拓器材可以或许办理的首要题目列出了它们的数目:

(编辑:河北网)

【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!

热点阅读