加入收藏 | 设为首页 | 会员中心 | 我要投稿 河北网 (https://www.hebeiwang.cn/)- 科技、建站、经验、云计算、5G、大数据,站长网!
当前位置: 首页 > 站长百科 > 正文

机器学习实践心得:数据平台设计与搭建

发布时间:2019-02-15 03:43:47 所属栏目:站长百科 来源:eva7
导读:副问题#e# 呆板进修作为近几年的一项热点技能,不只依附浩瀚“人工智能”产物而为人所熟知,更是从基础上增能了传统的互联网产物。下文将基于本人所认真的个推大数据平台搭建事变,与各人分享个推数据平台架构方面的履历以及踩过的一些坑。 一、配景:呆板
副问题[/!--empirenews.page--]

  呆板进修作为近几年的一项热点技能,不只依附浩瀚“人工智能”产物而为人所熟知,更是从基础上增能了传统的互联网产物。下文将基于本人所认真的个推大数据平台搭建事变,与各人分享个推数据平台架构方面的履历以及踩过的一些坑。

  一、配景:呆板进修在个推营业中的应用场景

  作为独立的智能大数据处事商,个推首要营业包罗开拓者处事、精准营销处事和各垂直规模的大数据处事。而呆板进修技能在多项营业及产物中均有涉及:

  1、个推可以或许提供基于精准用户画像的智能推送。其顶用户标签首要是基于呆板进修,通过实习模子后对人群做猜测分类;

  2、告白人群定向;

  3、商圈景区人流量猜测;

  4、移动开拓规模常常呈现卖弄装备,呆板进修可以或许辅佐开拓者辨认新增的用户的真伪;

  5、本性化内容保举;

  6、用户流失以及留存周期的猜测。

  二、详细开展呆板进修的进程

呆板进修实践心得:数据平台计划与搭建

  1、原始数据颠末数据的ETL处理赏罚,入库到数据仓里。

  2、上面蓝色部门代表呆板进修:起首把样本数据与我们的自稀有据举办匹配,然后洞察这份数据并天生特性,这个进程叫特性工程。接下来基于这些特性,选择吻合的算法实习后获得模子,最终把模子详细应用到全量的数据中,输出猜测的功效。

  尺度的呆板进修事变流:针对营业上发生的详细题目,我们把它转化成数据题目,可能评估它可否用数据来办理。将数据导入并过滤后,我们必要将数据与营业题目和方针举办相干性说明,并按照详细环境对数据做二次处理赏罚。

  下一步我们举办特性工程。从数据里找出跟方针有关的特性变量,从而构建或衍生出一些特性,同时要把有时义的特性剔除去。我们或许必要花80%的时刻在特性工程这个环节。选出特性之后,我们会用逻辑回归和RNN等算法举办模子的实习。接下来必要对模子做验证,判定其是否切合方针。不切合方针的缘故起因有也许是数据和方针不相干,必要从头收罗;也有也许是我们在试探的时辰,事变不到位,因而必要对现有的数据从头试探,再举办特性工程这些步调。假如最终模子切合营业预期,我们会把它应用在营业线上面。

呆板进修实践心得:数据平台计划与搭建

  三、呆板进修项目落地的常见题目

  固然上面的流程很清楚,但在详细落地的进程中也会碰着许多题目,这里我就之前的实践履历谈几点。

  1、此刻大部门公司都已经进入大数据的期间,对比于以往的小数据级的阶段,在呆板进修可能数据发掘等事变方面,对我们的建模职员、算法专家的手艺要求变高,事变难度也大大地晋升了。

  以往各人本身在单机上就可以完成呆板进修的数据预处理赏罚、数据说明以及最终呆板进修的说明和上线。但在海量数据环境下,也许必要打仗到Hadoop生态圈。

  2、做监视进修时,常常必要匹配样本。数据客栈内里的数据也许是万亿级别,提取数据周期很是长,大把的时刻要用于守候呆板把这些数据抽取出来。

  3、大大都环境下,许多营业由一两个算法工程师认真发掘,因而常常会呈现差异小组的建模器材不太同一或实现流程不类型的环境。不同一会造成许多代码一再率高,建模进程并没有在团队里很好地沉淀下来。

  4、许多呆板进修算法工程师的配景存在专业的范围性,他们也许在代码工程化意识和履历上相对会单薄一些。常见的做法是:算法工程师会在尝试阶段把特性天生代码和实习代码写好,交给做工程开拓的同窗,但这些代码无法在全量数据上运行起来。之后工程开拓同窗会把代码从头实现一遍,担保它的高可用和高效。但即便云云,也经常呈现翻译不到位的环境,导致雷同本钱高,上线应用周期长。

  5、呆板进修规模的一浩劫题在于对数据的行使,它的本钱很是高,由于我们把大量时刻用于试探数据了。

  6、个推有多项营业在行使呆板进修,但并不同一,会造成一再开拓,穷乏平台来沉淀和共享。这就导致已经衍生出来的一些较量好用的特性,没有获得普及的应用。

  四、个推针对呆板进修题目的办理方案

  起首说一下我们这个平台的方针:

  第一点,我们但愿内部的建模流程类型化。

  第二点,我们但愿提供一个端到端的办理方案,包围从模子的开拓到上线应用整个流程。

  第三点,我们但愿平台的数据,出格是开拓出的特性数据可以运营起来并在公司内差异团队间共享行使。

  第四点,这个平台不是面向呆板进修零基本的开拓职员,更多的是面向专家和半专家的算法工程师,让他们进步建模的服从。同时这个平台要支持多租户,确保保障数据安详。

  以下是我们本身的整体方案,首要分成两大块:

呆板进修实践心得:数据平台计划与搭建

  下半部门是建模平台,也叫尝试平台,它首要供算法工程师行使,建模平台包括:

  1、对应IDE。在这个平台长举办数据试探、做数据的尝试,而且它能支持项目标打点和共享。

  2、我们但愿把已经开拓好的特性数据打点起来,利便全部平台用户看到数据资产的环境。

  3、样本匹配时辰,样本ID也许与内部ID不同一,这个时辰必要做同一的ID匹配处事。

  4、辅佐算法工程师从万亿级数据里快速地抽取所需数据,这也长短常重要的一点。

  5、做呆板进修的进程中,除了根基的算法,现实上尚有许多代码是一再可能相似的,我们必要把这些常用代码举办函数化封装。

  6、支持对模子处事举办打包陈设。

  7、模子还要支持版本打点。

  8、在现实营业中应用模子,必要及时监控起来,跟进模子的可用性、精确性等。

  上半部门是出产情形,运行着数据处理赏罚pipeline,同时与数据建模平台对接着。

  在出产情形中,模子对应的特性数据分两类:

  一类是及时特性数据,好比数据及时收罗,天生一些及时的特性,按照差异的营业需求存储在差异的集群里。

  另一类是离线特性数据,离线数据加工后存到Hive,供模子应用侧举办行使。

  在出产情形中,我们可以提供在线的猜测API或 离线猜测好的数据 供营业线行使。

  五、方案实践详细要点

  第一点,我们讲讲jupyter这块:

(编辑:河北网)

【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!

热点阅读