加入收藏 | 设为首页 | 会员中心 | 我要投稿 河北网 (https://www.hebeiwang.cn/)- 科技、建站、经验、云计算、5G、大数据,站长网!
当前位置: 首页 > 建站 > 正文

最后一批被AI更换的人,也要赋闲了

发布时间:2019-04-18 11:53:52 所属栏目:建站 来源:读芯术
导读:曾经,数据标注员老是被称为最后一批被AI更换的人。 开拓呆板进修应用措施的最大瓶颈之一,是对培训当代呆板进修模子的大型标志数据集的海量需求。纵然是头部的AI创业公司,最要害的一环依然是从数据标注员开始的。今朝手工标志的培训集即昂贵又耗时,而数
副问题[/!--empirenews.page--]

 最后一批被AI更换的人,也要赋闲了

曾经,数据标注员老是被称为“最后一批被AI更换的人”。

开拓呆板进修应用措施的最大瓶颈之一,是对培训当代呆板进修模子的大型标志数据集的海量需求。纵然是头部的AI创业公司,最要害的一环依然是从数据标注员开始的。今朝手工标志的培训集即昂贵又耗时,而数据的组装、整理和调试是呆板进修模子可否乐成构建的源头。

克日斯坦福大学和布朗大学相助举办了 “Snorkel Drybell:在家产局限上陈设弱禁锢的一个案例研究 ”,该研究试探了怎样将组织中现有的常识用作更嘈杂、更高级此外禁锢——弱禁锢,来快速标志大型培训数据集。在该研究回收了一个尝试性的内部体系Snorkel Drybell,回收开源 Snorkel  框架来行使各类组织常识资源,如内部模子、本体、遗留法则、常识图等等,以便为全网域的呆板进修模子天生实习数据。这种要领的结果可以与工钱标志成千上万个数据点的结果相等,并显现了如安在实践中建设用于当代呆板进修模子的实习数据集的焦点履历。

Snorkel DryBell非工钱标志实习数据,而是通过编程方法编写标志成果来标志实习数据。在这个进程中,我们试探了这些标签成果怎样捕捉工程师的常识,怎样行使现有的资源作为开导式的弱监视。譬喻,假设我们的方针是辨认与绅士相干的内容。可以操作现有的定名实体辨认 (NER)模子来完成这项使命,要领是:将不包括绅士的内容标志为与绅士无关。

这声名白怎样将现有的常识资源与简朴的编程逻辑团结起来,以标志新模子的实习数据。更重要的是,这个标志函数在许多环境下会返回None——即弃权,因此只给数据的一小部门贴上了标签。我们的总方针是行使这些标签来实习一个可以推广到新数据的当代呆板进修模子。

标志函数示例操作现有的常识资源(在本例中是NER模子(2)),而非人工标志数据点(1),以及一些用代码(3)暗示的简朴逻辑来开导式地标志数据。

这个用于标注实习数据的编程接口比人工标注单个数据点要快得多,也更机动,可是天生的标签的质量明明比人工指定的标签低得多。这些标志函数天生的标签经常会重叠和纷歧致,由于标志函数不只也许有未知的精确性,还也许以恣意的方法关联(譬喻,共享一个民众数据源或开导式)。

为了办理噪声和相干的标签的题目, Snorkel DryBell行使天生建模技能 来自动预计标志函数的精度和相干性(不行使任何地面实况实习标签),然后行使它来从头加权,并将输出归并到每个数据点的单个概率标签中。

在较高的条理,我们依靠于标志函数(协方差矩阵  )之间调查到的同等性和纷歧致性,并行使一种新的矩阵补全式要领进修标志函数的精度和相干参数,以最好地表明这种调查到的输出。获得的标签可以用来实习恣意的模子(譬喻在 TensorFlow 中)。

1.操作多样化的常识资源作为弱监视

为了研究Snorkel Drybell的有用性,我们行使了三个出产使命和响应的数据集,目标是对网页内容中的主题举办分类,辨认特定产物并检测特定的及事势件。行使Snorkel DryBell,可以或许操作各类现有的或快速指定的信息来历,如:

  • 开导法和法则:如关于方针规模中现有的人工编写法则。
  • 主题模子、标签和分类器:如关于方针规模或相干规模的呆板进修模子。
  • 聚合的数据:如方针规模的跟踪指标。
  • 常识或实体图:如方针规模的究竟数据库。

在Snorkel DryBell中,方针是实习一个呆板进修模子(C),譬喻在web数据长举办内容或变乱分类。

在Snorkel DryBell中,用户编写暗示各类组织常识资源的标志函数(A),然后自动从头加权和组合(B),而不是通过人工标志培训数据来实现。

我们行使这些组织常识资源在基于MapReduce  模板的途径中编写标志函数。每个标志函数都接管一个数据点,对其删除或输出。其功效是一组大型的措施天生的培训标签。然而,这些标签中有很多噪声、互相斗嘴(譬喻开导式),可能对付我们的使命过于粗粒度(譬喻主题模子),导致必要Snorkel DryBell来举办自动整理标签并将其集成到最终的培训齐集。

2.归并和从头操作现有资源来精确建模

为了处理赏罚这些嘈杂的标签,下一阶段Snorkel DryBell将标签函数的输出组合为一个单独的、针对每个数据点的信念加权实习标签。技能方面的挑衅是,这必需在没有任何基才干实标签的环境下完成。我们行使天生式建模技能,只行使未标志的数据进修每个标志函数的精确性。这种技能通过调查标志函数输出之间的协媾和分歧矩阵来进修,思量到它们之间已知的(或统计预计的)相干布局。在Snorkel DryBell中,为了处理赏罚网页局限的数据,我们还用了这种建模要领的一个更快无需采样的版本,该版本在TensorFlow中有应用。

通过将该措施在Snorkel DryBell中的标注成果输出举办组合建模,可以天生高质量的培训标签。究竟上,在两个可用的手工标志实习数据举办较量的应用中,我们实现了与Snorkel DryBell的标签一样的猜测精确性实习,与 12000和80000小我私人工标志实习数据点猜测的精确性同等。

3.将不行处事的常识转换为可处事的模子

在很多配置中,可用于出产的可提供特征和不行提供特征之间也有一个重要的区别。这些不行提供的特征也许具有很是富厚的信号,但广泛的题目是怎样行使它们来培训或辅佐可在出产中陈设的可提供模子。

(编辑:河北网)

【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!

热点阅读