千锋大数据培训技术分享:Hbase精解
本文由千锋大数据培训讲师为大家讲解,为什么有hbase?hbase是什么?Hbase的架构。
一、 为什么有hbase?
数据量越来越大,传统的关系型数据库不能满足存储和查询的需求。而hive虽然能满足存储的要求,但是hive不能满足非结构化、半结构化数据的存储和查询。
二、hbase是什么?
hbase是一个开源的、分布式的、多版本的、可扩展的非关系型数据库。hbase是bigtable的开源java版本,建立在hdfs之上,提供高可靠性的、高性能、列式存储、可伸缩、实时读写的nosql数据库系统。适用的场景如:需要对海量非结构化的数据进行存储。
需要随机近实时的读写管理数据。
三、hbase的架构
client\zookeeper\hmaster\
hregionserver\hlog\hregion\memstore\storefile\hfile
client:hbase的客户端,包含访问hbase的接口(linux shell 、java api)
client维护一些cache来加快访问hbase的速度,比如region的位置信息。
zookeeper:监控hmaster的状态,保证有些仅有一个active的hmaster,达到高可用。存储所有region的寻址入口,--root表在那台服务器上。实时监控hregionserver的状态,将regionserver的上下线信息实时通知给hmaster。存储hbase的所有表的信息(hbase的元数据)
hmaster:(hbase的老大)为regionserver分配region(新建表等)。负责regionserver的负载均衡。负责region的重新分配(hregionserver异常、hregion裂变)。hdfs上的垃圾文件回收。处理schema的更新请求。
hregionserver:(hbase的小弟)hregionserver维护master分配给他的region(管理本机器上region)。处理client对这些region的IO请求,并和hdfs进行交互
region server负责切分在运行过程中变大的region。
hlog:对hbase的操作进行记录,使用WAL写数据,优先写入log,然后再写入memstore,以防数据丢死可以进行回滚。
hregion:hbase中分布式存储和负载均衡的最小单元,表或者表的一部分。
store:相当于一个列簇。
memstore:128M内存缓冲区,用于将数据批量刷新到hdfs上。
hstorefile(hfile):hbase中的数据是以hfile的形式存储在hdfs上。
各组件间的数量关系:
hmaster:hregionserver=1:n
hregionserver:hregion=1:n
hregionserver:hlog=1:1
hregion:hstore=1:n
store:memstore=1:1
store:storefile=1:n
storefile:hfile=1:1
hbase关键字词:
rowkey:行键,和mysql的主键是一样的,不允许重复,有顺序。
columnfamily:列簇(列的集合)。
column:列。
timestamp:时间戳,默认显示最新的时间戳。
version:版本号。
cell:单元格。
四、hbase和hadoop的关系
hbase是基于hadoop:hbase的存储依赖于hdfs。具体说hbase的特点:
模式:无模式。
数据类型:单一 byte[]。
多版本:每个值都可以有多个版本。
列式存储:一个列簇存储到一个目录。
稀疏存储:如果key-value为null,则将不占用存储空间。
再说hbase的安装:
1、standalone模式
1)解压并配置环境变量
tar -zxvf hbase-1.2.1-bin.tar.gz -C /usr/local
cd /usr/local
vi /etc/profile
source /etc/profile
2)测试hbase的安装
hbase version
配置hbase的配置文件
vi conf/hbase-env.sh
JAVA_HOME
注意:
# Configure PermSize. Only needed in JDK7. You can safely remove it for JDK8+
export HBASE_MASTER_OPTS="$HBASE_MASTER_OPTS -XX:PermSize=128m -XX:MaxPermSize=128m"。
export HBASE_REGIONSERVER_OPTS="$HBASE_REGIONSERVER_OPTS -XX:PermSize=128m -XX:MaxPermSize=128m"。
vi hbase-site.xml
hbase.rootdir
file:///usr/local/hbasedata
hbase.zookeeper.property.dataDir
/usr/local/zookeeperdata
启动hbase服务:
bin/start-hbase/sh
启动客户端:
bin/hbase shell
2、伪分布式
3、全分布式
解压并配置环境变量
配置hbase的配置文件
vi conf/hbase-env.sh
export HBASE_MANAGES_ZK=false
vi regionservers
vi backup-masters
vi hbase-site.xml
hbase.cluster.distributed
true
hbase.rootdir
hdfs://qianfeng/hbase
hbase.zookeeper.property.dataDir
/usr/local/zookeeperdata
hbase.zookeeper.quorum
hadoop05:2181,hadoop06:2181,hadoop07:2181
注意:
如果hdfs是高可用的,要讲hadoop下的core-site.xml和hdfs-site.xml copy到hbase/conf目录下。
分发:
scp -r hbase-1.2.1 root@hadoop06:$PWD
scp -r hbase-1.2.1 root@hadoop07:$PWD
启动:
1)启动zk
2)启动hdfs
3)启动hbase
hbase集群的时间必须同步。
hmaster:16010
hregionserver:16030
hbase的shell操作
help
help "COMMAND"
help "COMMAND_GROUP"
列举出当前namespace下的所有表
list
创建表:
create 'test','f1', 'f2'
namespace:
hbase没有库的概念,但是有名称空间或者组的概念,namespace相当于(库)
hbase默认有两个组:
default:
hbase:
列举出所有的namespcae:
list_namespace
list_namespace_tables 'hbase'
create_namespace 'ns1'
describe_namespace 'ns1'
alter_namespace 'ns1', {METHOD => 'set', 'NAME' => 'gjz1'}
alter_namespace 'ns1', {METHOD => 'unset', NAME => 'NAME'}
drop_namespace 'ns1' ###只能删除一个空的namespace
DDL:
Group name: ddl
Commands: alter, alter_async, alter_status, create, describe, disable, disable_all, drop, drop_all, enable, enable_all, exists, get_table, is_disabled, is_enabled, list, locate_region, show_filters
创建表:
create 'test','f1', 'f2'
create 'ns1:t_userinfo',{NAME=>'base_info',BLOOMFILTER => 'ROWCOL',VERSIONS => '3'}
create 'ns1:t1', 'f1', SPLITS => ['10', '20', '30', '40'] --事先分配好region所管辖的rowkey的范围。
修改表:(有则更新,无则新增)
alter 'ns1:t_userinfo',{NAME=>'extra_info',BLOOMFILTER => 'ROW',VERSIONS => '2'}
alter 'ns1:t_userinfo',{NAME=>'extra_info',BLOOMFILTER => 'ROWCOL',VERSIONS => '5'}
删除列簇:
alter 'ns1:t_userinfo', NAME => 'extra_info', METHOD => 'delete'
alter 'ns1:t_userinfo', 'delete' => 'base_info'
删除表:(先要禁用表)
disable 'ns1:t1'
drop 'ns1:t1'
DML:
Group name: dml
Commands: append, count, delete, deleteall, get, get_counter, get_splits, incr, put, scan, truncate, truncate_preserve
插入数据:(不能一次性插入多列)
put 'ns1:test','u00001','cf1:name','zhangsan'
put 'ns1:t_userinfo','rk00001','base_info:name','gaoyuanyuan'
put 'ns1:t_userinfo','rk00001','extra_info:pic','picture'
更新数据:
put 'ns1:t_userinfo','rk00001','base_info:name','zhouzhiruo'
put 'ns1:t_userinfo','rk00002','base_info:name','zhaoming'
表扫描(scan)
scan 'ns1:t_userinfo'
scan 'ns1:t_userinfo',{COLUMNS => ['base_info:name','base_info:age']}
设置查询条件:(包头不包尾)
scan 'ns1:t_userinfo',{COLUMNS => ['base_info:name','base_info:age'],STARTROW=>'rk000012',LIMIT=>2}
scan 'ns1:t_userinfo',{COLUMNS => ['base_info:name','base_info:age'],STARTROW=>'rk000012',ENDROW=>'rk00002',LIMIT=>2}
查询数据:(GET)
get 'ns1:t_userinfo','rk00001'
get 'ns1:t_userinfo','rk00001',{TIMERANGE=>[1534136591897,1534136667747]}
get 'ns1:t_userinfo','rk00001',{COLUMN=>['base_info:name','base_info:age'],VERSIONS =>4}
get 'ns1:t_userinfo','rk00001',{TIMESTAMP=>1534136580800}
删除数据:(DELETE)
delete 'ns1:t_userinfo','rk00002','base_info:age'
'ns1:t_userinfo','rk00001',{TIMERANGE=>[1534138686498,1534138738862]}
删除指定的版本:(往上删除版本)
delete 'ns1:t_userinfo','rk00001','base_info:name',TIMESTAMP=>1534138686498
表判断:
exists 'ns1:t_userinfo'
disable 'ns1:t_userinfo'
enable 'ns1:t_userinfo'
desc 'ns1:t_userinfo'
统计表:(统计效率较差,不建议使用)
count 'ns1:t_userinfo'
清空表:
truncate 'ns1:test'
大数据时代,中国IT环境也将面临重新洗牌,不仅仅是企业,更是程序员们转型可遇而不可求的机遇。千锋大数据培训机构郑重承诺,无论是有基础的你选择网络教育培训,还是没有基础的你选择全程面授的线下培训班,只要你来,千锋定会让你满载而归!
学习大数据开发,可以参考千锋提供的大数据学习路线,该学习路线提供完整的大数据开发知识体系,内容包含Linux&&Hadoop生态体系、大数据计算框架体系、云计算体系、机器学习&&深度学习。根据千锋提供的大数据学习路线图可以让你对学习大数据需要掌握的知识有个清晰的了解,并快速入门大数据开发。
猜你喜欢LIKE
相关推荐HOT
更多>>索引有什么作用?在mongodb中索引分为几类
索引(Index)是数据库中的一种数据结构,用来提高数据检索的效率。它们可以帮助数据库系统快速地定位和访问需要的数据。在 MongoDB 中,索引也很...详情>>
2023-04-11 13:43:47主键约束是什么意思?如何实现mysql主键约束
主键约束是一种在数据库中用于保证表中某个列的唯一性和非空性的约束,该列将成为表的主键。主键的作用是为了唯一标识表中的每一行数据,以方便...详情>>
2023-03-17 16:51:01eureka和zookeeper的区别对比
Eureka和Zookeeper都是服务发现和注册的工具,但它们有以下几个不同点:架构设计:Eureka采用了集中式的架构,其中一个服务作为Eureka Server,...详情>>
2023-03-07 15:35:18Zookeeper和Eureka的区别都有哪些?
Zookeeper和Eureka都是分布式系统中常用的服务发现和注册组件,它们的主要区别如下:数据一致性:Zookeeper是一个高度可靠的分布式数据一致性解...详情>>
2023-03-07 15:26:19zookeeper和eureka的区别介绍
1.架构设计:ZooKeeper是一个分布式的协调服务,它提供了高可用、高可靠性的数据存储和协调服务,可以作为分布式系统中的一个通用组件使用。而E...详情>>
2023-03-03 15:00:46大数据培训问答更多>>
新大数据都学什么?5大核心知识必学内容有哪些
新大数据报班多少钱?如何选择培训机构
新人工智能学什么?自学可以成才吗
新数据处理包括哪些内容?是不是所有课程需要分别报课
新大数据分析需要学什么?怎么学比较好
新人工智能专业学什么?人工智能有哪些课程
新大数据数据分析师要学什么?好就业吗
大数据面试题库 更多>>
大数据的五个V是什么?
数据及集群管理(三)
数据及集群管理(二)
数据及集群管理(一)
大数据之hbase的优化读数据方面
大数据之hbase的优化写入数据方面
- 北京校区
- 大连校区
- 广州校区
- 成都校区
- 杭州校区
- 长沙校区
- 合肥校区
- 南京校区
- 上海校区
- 深圳校区
- 武汉校区
- 郑州校区
- 西安校区
- 青岛校区
- 重庆校区
- 太原校区
- 沈阳校区
- 南昌校区
- 哈尔滨校区