HBase Shell操作命令

Stella981
• 阅读 654

HBase单机配置(官网):

HBase下载http://www.apache.org/dyn/closer.cgi/hbase/

解压缩,然后进入到那个要解压的目录.

$ tar xfz hbase-××××.tar.gz
$ cd hbase-×××××

现在你已经可以启动HBase了。但是你可能需要先编辑 conf/hbase-site.xml 去配置hbase.rootdir,来选择HBase将数据写到哪个目录 .

<?xml version="1.0"?>
<?xml-stylesheet type="text/xsl" href="configuration.xsl"?>
<configuration>
  <property>
    <name>hbase.rootdir</name>
    <value>file:///DIRECTORY/hbase</value>
  </property>
</configuration>

将 DIRECTORY 替换成你期望写文件的目录. 默认 hbase.rootdir 是指向 /tmp/hbase-${user.name} ,也就说你会在重启后丢失数据(重启的时候操作系统会清理/tmp目录)

1.创建表
同其它数据库一样,hbase也有表的概念。

hbase(main):001:0> create 'test','cf'
0 row(s) in 1.5210 seconds

=> Hbase::Table - test

这张表的表名叫做test , 有一个列族叫做cf

(注意shell中所有的名字都必须用引号引起来,和传统数据库不同的是,HBASE的表不用定义有哪些列(字段,Column),因为列是可以动态增加和删除的。但Hbase表需要定义列族(column family).每张表有一个或者多个列族,每个列必须且仅属于一个列族。列族主要用来存储上对相关的列分组,从而使得减少对无关列的访问来提高性能。)

下面看看这张表是什么(describe命令)

hbase(main):003:0> describe 'test'
Table test is ENABLED                                                           
test                                                                            
COLUMN FAMILIES DESCRIPTION                                                     
{NAME => 'cf', BLOOMFILTER => 'ROW', VERSIONS => '1', IN_MEMORY => 'false', KEEP
_DELETED_CELLS => 'FALSE', DATA_BLOCK_ENCODING => 'NONE', TTL => 'FOREVER', COMP
RESSION => 'NONE', MIN_VERSIONS => '0', BLOCKCACHE => 'true', BLOCKSIZE => '6553
6', REPLICATION_SCOPE => '0'}                                                   
1 row(s) in 0.1610 seconds

可以看到HBase给这张表设置了很多默认的属性。

  1. Version:缺省值是3,即默认保存了三个历史版本。就是说,如果一个值被覆盖了,和传统数据库不同,HBase不仅保存了新值,最近的2个值也都相同。
  2. TTL:生存期,一个数据在HBase中被保存的时限。意思是,如果你设置TTL是俩天的话,那么俩天后这个数据会被HBase自动的清楚。如果你希望永久的保存,那把TTL设置到做大就好。

2.插入数据

往表test里插入一些数据:

hbase(main):004:0> put 'test','row1','cf:a','value1'
0 row(s) in 0.1330 seconds

hbase(main):005:0> put 'test','row2','cf:b','value2'
0 row(s) in 0.0150 seconds

hbase(main):006:0> put 'test','row3','cf:c','value3'
0 row(s) in 0.0130 seconds

hbase(main):007:0> put 'test','row1','cf:c','value4'
0 row(s) in 0.0100 seconds

hbase(main):008:0> put 'test','row1','cf:c','value4'
0 row(s) in 0.0100 seconds

hbase(main):009:0> put 'test','row1','cf:c','value4'
0 row(s) in 0.0100 seconds

上面的命令往表test里放了3行数据。命令put就是往表中插入或者更新一条数据。HBase表中的每一行数据都由一个行主键来标识,所以我们用row1,row2这样的字符串来标识相应的行。每一行由“列族:列名”这样的组合来标识,所以cf:a就是在列族cf中名为a的列。命令的最后一个参数是该列的值。

3.读出数据

下面读出所有数据

hbase(main):010:0> scan 'test'
ROW                   COLUMN+CELL                                               
 row1                 column=cf:a, timestamp=1499600631906, value=value1        
 row1                 column=cf:c, timestamp=1499600731612, value=value4        
 row2                 column=cf:b, timestamp=1499600686798, value=value2        
 row3                 column=cf:c, timestamp=1499600707212, value=value3        
3 row(s) in 0.0480 seconds

可以看到一共有四条数据

每条数据都有一个时间戳,这是HBase写入时记录的系统时间。

用表格描述这张表

row key

column family: cf

a

b

c

row1

value1

 

value4

row2

 

value2

 

row3

 

 

value3

空的表格并不代表这里有这个单元格存在。在传统数据库中,空白单元表示该单元存在但其值为空(传统数据库总是结构化的)。但这里画成二维表只是便于理解,其本质上完全是非结构化的。

例如:我们使用get来获取特定一行的数据:

hbase(main):019:0> get 'test','row2'
COLUMN                CELL                                                      
 cf:b                 timestamp=1499600686798, value=value2                     
1 row(s) in 0.0400 seconds

4.更新数据

更新test一个单元(将row1的cf:a列更新值为value5):

hbase(main):020:0> put 'test' , 'row1' ,'cf:a' , 'value5'
0 row(s) in 0.0210 seconds

结果:

hbase(main):021:0> scan 'test'
ROW                   COLUMN+CELL                                               
 row1                 column=cf:a, timestamp=1499602903513, value=value5        
 row1                 column=cf:c, timestamp=1499601334793, value=value5        
 row2                 column=cf:b, timestamp=1499600686798, value=value2        
 row3                 column=cf:c, timestamp=1499600707212, value=value3        
3 row(s) in 0.0350 seconds

5.删除数据

用以下命令删除这张表:

hbase(main):022:0> disable 'test'
0 row(s) in 2.2800 seconds

hbase(main):023:0> drop 'test'
0 row(s) in 1.2600 seconds

HBase中删除表必须先把表下线(disable) ,  然后才能把表删除掉。

运行以下命令退出Shell:

hbase(main):024:0> exit
点赞
收藏
评论区
推荐文章
blmius blmius
3年前
MySQL:[Err] 1292 - Incorrect datetime value: ‘0000-00-00 00:00:00‘ for column ‘CREATE_TIME‘ at row 1
文章目录问题用navicat导入数据时,报错:原因这是因为当前的MySQL不支持datetime为0的情况。解决修改sql\mode:sql\mode:SQLMode定义了MySQL应支持的SQL语法、数据校验等,这样可以更容易地在不同的环境中使用MySQL。全局s
皕杰报表之UUID
​在我们用皕杰报表工具设计填报报表时,如何在新增行里自动增加id呢?能新增整数排序id吗?目前可以在新增行里自动增加id,但只能用uuid函数增加UUID编码,不能新增整数排序id。uuid函数说明:获取一个UUID,可以在填报表中用来创建数据ID语法:uuid()或uuid(sep)参数说明:sep布尔值,生成的uuid中是否包含分隔符'',缺省为
待兔 待兔
4个月前
手写Java HashMap源码
HashMap的使用教程HashMap的使用教程HashMap的使用教程HashMap的使用教程HashMap的使用教程22
Jacquelyn38 Jacquelyn38
3年前
2020年前端实用代码段,为你的工作保驾护航
有空的时候,自己总结了几个代码段,在开发中也经常使用,谢谢。1、使用解构获取json数据let jsonData  id: 1,status: "OK",data: 'a', 'b';let  id, status, data: number   jsonData;console.log(id, status, number )
Stella981 Stella981
3年前
Python之time模块的时间戳、时间字符串格式化与转换
Python处理时间和时间戳的内置模块就有time,和datetime两个,本文先说time模块。关于时间戳的几个概念时间戳,根据1970年1月1日00:00:00开始按秒计算的偏移量。时间元组(struct_time),包含9个元素。 time.struct_time(tm_y
Wesley13 Wesley13
3年前
mysql设置时区
mysql设置时区mysql\_query("SETtime\_zone'8:00'")ordie('时区设置失败,请联系管理员!');中国在东8区所以加8方法二:selectcount(user\_id)asdevice,CONVERT\_TZ(FROM\_UNIXTIME(reg\_time),'08:00','0
Stella981 Stella981
3年前
HBase启动失败
如果在hbase的shell中输入了status报错,hbase(main):001:0statusERROR:org.apache.hadoop.hbase.ipc.ServerNotRunningYetException:Serverisnotrunningyetatorg.apache.ha
Wesley13 Wesley13
3年前
00:Java简单了解
浅谈Java之概述Java是SUN(StanfordUniversityNetwork),斯坦福大学网络公司)1995年推出的一门高级编程语言。Java是一种面向Internet的编程语言。随着Java技术在web方面的不断成熟,已经成为Web应用程序的首选开发语言。Java是简单易学,完全面向对象,安全可靠,与平台无关的编程语言。
Wesley13 Wesley13
3年前
MySQL部分从库上面因为大量的临时表tmp_table造成慢查询
背景描述Time:20190124T00:08:14.70572408:00User@Host:@Id:Schema:sentrymetaLast_errno:0Killed:0Query_time:0.315758Lock_
Python进阶者 Python进阶者
10个月前
Excel中这日期老是出来00:00:00,怎么用Pandas把这个去除
大家好,我是皮皮。一、前言前几天在Python白银交流群【上海新年人】问了一个Pandas数据筛选的问题。问题如下:这日期老是出来00:00:00,怎么把这个去除。二、实现过程后来【论草莓如何成为冻干莓】给了一个思路和代码如下:pd.toexcel之前把这