海量数据下的舆情分析,该如何搭建?
在阿里云浩瀚存储和计较产物中,贴合上述大数据架构的需求,我们选用两款产物来实现整套舆情大数据体系。存储层面行使阿里云自研的漫衍式多模子数据库Tablestore,计较层选用Blink来实现流批一体计较。 图5 云上舆情大数据架构 这套架构在存储层面,所有基于Tablestore,一个数据库办理差异存储需求,按照之前舆情体系的先容,网页爬虫数据在辖档枉动中会有四个阶段别离是原始网页内容,网页布局化数据,说明法则元数据和舆情功效,舆情功效索引。 我们操作Tablestore宽行和schema free的特征,归并原始网页和网页布局化数据成一张网页数据。网页数据表和计较体系通过Tablestore新成果通道处事举办对接。通道处事基于数据库日记,数据的组织布局凭证数据的写入次序举办存储,正是这一特征,赋能数据库具备了行列流式斲丧手段。使得存储引擎既可以具备数据库的随机遇见,也可以具备行列的凭证写入次序会见,这也就满意我们上面提到整合Lambda和kappa架构的需求。说明法则元数据表由说明法则,情绪词库组层,对应及时计较中的维表。 计较体系这里选用阿里云及时流计较产物Blink,Blink是一款支持流计较和批计较一体的及时计较产物。而且相同Tablestore可以很轻易的做到漫衍式程度扩展,让计较资源跟着营业数据增添弹性扩容。行使Tablestore + Blink的上风有以下几点: Tablestore已经深度和Blink举办整合,支持源表,维表和目标表,营业无需为数据活动开拓代码。 整套架构大幅低落组建个数,从开源产物的6~7个组建镌汰到2个,Tablestore和Blink都是全托管0运维的产物,而且都能做到很好的程度弹性,营业峰值扩展无压力,使得大数据架构的运维本钱大幅低落。 营业方只必要存眷数据的处理赏罚部门逻辑,和Tablestore的交互逻辑都已经集成在Blink中。 开源方案中,假如数据库源但愿对接及时计较,还必要双写一个行列,让流计较引擎斲丧行列中的数据。我们的架构中数据库既作为数据表,又是行列通道可以及时增量数据斲丧。大大简化了架构的开拓和行使本钱。 流批一体,在舆情体系中及时性是至关重要的,以是我们必要一个及时计较引擎,而Blink除了及时计较以外,也支持批处理赏罚Tablestore的数据, 在营业低峰期,每每也必要批量处理赏罚一些数据并作为反馈功效写回Tablestore,譬喻情绪说明反馈等。那么一套架构既可以支持流处理赏罚又可以支持批处理赏罚是再好不外。一套架构带来的上风是,一套说明代码既可以做及时流计较又可以离线批处理赏罚。 整个计较流程会发生及时的舆情计较功效。重大舆情变乱的预警,通过Tablestore和函数计较触发器对接来实现。Tablestore和函数计较做了增量数据的无缝对接,通过功效表写入变乱,可以轻松的通过函数计较触发短信可能邮件关照。完备的舆情说明功效和展示搜刮操作了Tablestore的新成果多元索引,彻底办理了开源Hbase+Solr 多引擎的痛点: 运维伟大,必要有运维hbase和solr两套体系的手段,同时还必要维护数据同步的链路。 Solr数据同等性不如Hbase,在Hbase和Solr数据语意并不是完全同等,加上Solr/Elasticsearch在数据同等性很难做到像数据库那么严酷。在一些极度环境下会呈现数据纷歧致的题目,开源方案也很难做到跨体系的同等性比对。 查询接口必要维护两套API,必要同时行使Hbase client和Solr client,索引中没有的字段必要主动反查Hbase,易用性较差。 参考文献 Lambda大数据架构: https://mapr.com/tech-briefs/stream-processing-mapr/ Kappa大数据架构: https://www.oreilly.com/ideas/questioning-the-lambda-architecture Lambda和Kappa架构比拟: https://www.ericsson.com/en/blog/2015/11/data-processing-architectures--lambda-and-kappa
(编辑:河北网) 【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容! |