HBase数据同步到ElasticSearch的方案

Stella981
• 阅读 1150


ElasticSearch的River机制

ElasticSearch自身提供了一个River机制,用于同步数据。

这里能够找到官方眼下推荐的River:

http://www.elasticsearch.org/guide/en/elasticsearch/rivers/current/

可是官方没有提供HBase的River。

事实上ES的River很easy,就是一个用户打包好的jar包,ES负责找到一个node,并启动这个River。假设node失效了。会自己主动找另外一个node来启动这个River。

public interface RiverComponent { RiverName riverName(); } public interface River extends RiverComponent {

/**
 * Called whenever the river is registered on a node, which can happen when:
 * 1) the river _meta document gets indexed
 * 2) an already registered river gets started on a node
 */
void start();

/**
 * Called when the river is closed on a node, which can happen when:
 * 1) the river is deleted by deleting its type through the delete mapping api
 * 2) the node where the river is allocated is shut down or the river gets rerouted to another node
 */
void close();

}


Elasticsearch-HBase-River

github上有两个相关的项目:

https://github.com/mallocator/Elasticsearch-HBase-River

这个项目事实上非常easy。在River里用定时器启动一个HBase的Scanner,去扫描数据,并把数据插到ES里。

和自己手动写代码去扫描差点儿相同。

https://github.com/posix4e/Elasticsearch-HBase-River

这个项目利用了HBase的Replication机制。模拟了一个Hbase Replication的结点,然后同步数据到ES里。

可是这个项目是基于Hbase0.94的,实现的功能有限。

Hbase0.94和HBase0.98 的API变化非常大,基本不可用,并且作者也说了不能用于生产环境。

HBase的Relication机制

能够參考官方文档和cloudera的一些博客文章:
http://hbase.apache.org/book.html#cluster\_replication 
http://blog.cloudera.com/blog/2012/07/hbase-replication-overview-2/

HBase的Relication机制,事实上和Mysql的同步机制非常像,HBase的每一个Region Server都会有WAL Log,当Put/Delete时。都会先写入到WAL Log里。然后后台有线程会把WAL Log随机发给Slave的Region Server。而Slave的Region Server会在zookeeper上记录自己同步到的位置。


HBase同步数据到Solr的方案:Lily HBase Indexer

Cloudera内置的Cloudera Search实际上就是这个Lily Hbase Indexer:

https://github.com/NGDATA/hbase-indexer 

这个项目就是利用了HBase的Replication功能,把HBase数据改动(Put。Delete)都抽像成为一系列Event,然后就能够同步到Solr里了。

这个项目抽象出了一个子项目:HBase Side-Effect Processor。

https://github.com/NGDATA/hbase-indexer/blob/master/hbase-sep/README.md

让用户能够自己写Listener来处理Event。


HBase数据同步到ElasticSearch的终于方案

考虑了上面的东东。所以决定基于HBase Side-Effect Processor。来自己写简单的程序同步数据到ES里。

事实上代码是很easy的。參考下Demo里的LoggingConsumer就好了。

https://github.com/NGDATA/hbase-indexer/blob/master/hbase-sep/hbase-sep-demo/src/main/java/com/ngdata/sep/demo/LoggingConsumer.java

 private static class EventLogger implements EventListener { @Override public void processEvents(List<SepEvent> sepEvents) { for (SepEvent sepEvent : sepEvents) { System.out.println("Received event:"); System.out.println(" table = " + Bytes.toString(sepEvent.getTable())); System.out.println(" row = " + Bytes.toString(sepEvent.getRow())); System.out.println(" payload = " + Bytes.toString(sepEvent.getPayload())); System.out.println(" key values = "); for (KeyValue kv : sepEvent.getKeyValues()) { System.out.println(" " + kv.toString()); } } } }


其他的一些东东:

ElasticSearch 和Solr cloud的比較

从网上找到的帖子,讨论比較多的是12年,貌似后面就比較少了。

https://github.com/superkelvint/solr-vs-elasticsearch 
http://stackoverflow.com/questions/2271600/elasticsearch-sphinx-lucene-solr-xapian-which-fits-for-which-usage 

http://www.quora.com/Why-Cloudera-search-is-built-on-Solr-and-not-Elasticsearch   Cloudera-Search为什么选择Solr而不是ElasticSearch


个人倾向于ElasticSearch,由于从流行度来看。ES正在超越solr cloud:

HBase数据同步到ElasticSearch的方案

Logstash + ElasticSearch + Kibana的完整日志收集分析工具链,也有非常多公司在用。



点赞
收藏
评论区
推荐文章
blmius blmius
3年前
MySQL:[Err] 1292 - Incorrect datetime value: ‘0000-00-00 00:00:00‘ for column ‘CREATE_TIME‘ at row 1
文章目录问题用navicat导入数据时,报错:原因这是因为当前的MySQL不支持datetime为0的情况。解决修改sql\mode:sql\mode:SQLMode定义了MySQL应支持的SQL语法、数据校验等,这样可以更容易地在不同的环境中使用MySQL。全局s
皕杰报表之UUID
​在我们用皕杰报表工具设计填报报表时,如何在新增行里自动增加id呢?能新增整数排序id吗?目前可以在新增行里自动增加id,但只能用uuid函数增加UUID编码,不能新增整数排序id。uuid函数说明:获取一个UUID,可以在填报表中用来创建数据ID语法:uuid()或uuid(sep)参数说明:sep布尔值,生成的uuid中是否包含分隔符'',缺省为
待兔 待兔
4个月前
手写Java HashMap源码
HashMap的使用教程HashMap的使用教程HashMap的使用教程HashMap的使用教程HashMap的使用教程22
Jacquelyn38 Jacquelyn38
3年前
2020年前端实用代码段,为你的工作保驾护航
有空的时候,自己总结了几个代码段,在开发中也经常使用,谢谢。1、使用解构获取json数据let jsonData  id: 1,status: "OK",data: 'a', 'b';let  id, status, data: number   jsonData;console.log(id, status, number )
Wesley13 Wesley13
3年前
Java中Class对象详解
<divclass"htmledit\_views"id"content\_views"<phttps://blog.csdn.net/mcryeasy/article/details/52344729<br</p<p待优化整理总结</p<p</p<h1style"padding:0px;fontfamily:'apple
Stella981 Stella981
3年前
Django之Django模板
1、问:html页面从数据库中读出DateTimeField字段时,显示的时间格式和数据库中存放的格式不一致,比如数据库字段内容为2012082616:00:00,但是页面显示的却是Aug.26,2012,4p.m.答:为了页面和数据库中显示一致,需要在页面格式化时间,需要添加<td{{dayrecord.p\_time|date:
Stella981 Stella981
3年前
Dubbo爆出严重漏洞!可导致网站被控制、数据泄露!附解决方案
http://dy.163.com/v2/article/detail/F5FPIFRU0511Q1AF.html  !(http://dingyue.ws.126.net/2020/0216/125ec4c4p00q5rcrs0019d200ig009qg00ig009q.png)  来源:华为云  原文地址:https://w
Stella981 Stella981
3年前
Elasticsearch基本概念及核心配置文件详解
<divid"cnblogs\_post\_body"class"blogpostbody"<p&nbsp;  Elasticsearch5.X,下列的是Elasticsearch2.X系类配置,其实很多配置都是相互兼容的</p<h2id"1配置文件"1.配置文件</h2<prename"code"<codeclass
Wesley13 Wesley13
3年前
MySQL部分从库上面因为大量的临时表tmp_table造成慢查询
背景描述Time:20190124T00:08:14.70572408:00User@Host:@Id:Schema:sentrymetaLast_errno:0Killed:0Query_time:0.315758Lock_
Python进阶者 Python进阶者
10个月前
Excel中这日期老是出来00:00:00,怎么用Pandas把这个去除
大家好,我是皮皮。一、前言前几天在Python白银交流群【上海新年人】问了一个Pandas数据筛选的问题。问题如下:这日期老是出来00:00:00,怎么把这个去除。二、实现过程后来【论草莓如何成为冻干莓】给了一个思路和代码如下:pd.toexcel之前把这