数据及集群管理（一）_千锋教育

千锋教育-做有情怀、有良心、有品质的职业教育机构

手机站

千锋教育

千锋学习站 | 随时随地免费学

千锋教育

扫一扫进入千锋手机站

行业头条

大数据分析入门到就业要多久？ 查看详情>>

大数据软件开发的就业前景如何？ 查看详情>>

大数据目前就业前景怎么样？ 查看详情>>

大数据培训就业方向有哪些？ 查看详情>>

大数据分析就业高薪岗位介绍 查看详情>>

大数据分析编程就业方向如何？ 查看详情>>

女生学大数据分析就业前景好吗？ 查看详情>>

学习大数据编程好就业吗？ 查看详情>>

大数据分析就业前景及工资如何？ 查看详情>>

大数据有那些就业方向？ 查看详情>>

400-811-9990 全国咨询热线

首页视频教程培训课程师资团队技术干货常见问题面试题职场就业零基础学大数据行业资讯

【热点话题】大数据技术干货大数据学习教程大数据学习笔记大数据面试题大数据培训问答大数据培训机构哪些好大数据职场就业

当前位置：大数据培训 > 大数据面试题 > 数据及集群管理（一）

数据及集群管理（一）

来源：千锋教育

发布人：qyf

时间： 2022-12-09 18:11:46 1670580706

　　预分区

　　默认情况下，在创建HBase表的时候会自动创建一个Region分区，当导入数据的时候，所有的HBase客户端都向Region写数据，知道这个Region足够大才进行切分，一种可以加快批量写入速度的方法是通过预先创建一些空的Regions，这样当数据写入HBase的时候，会按照Region分区情况，在进群内做数据的负载均衡。

　　Rowkey优化

　　rowkey是按照字典存储，因此设置rowkey时，要充分利用排序特点，将经常一起读取的数据存储到一块，将最近可能会被访问的数据放到一块。

　　rowkey若是递增生成的，建议不要使用正序直接写入，可以使用字符串反转方式写入，使得rowkey大致均衡分布，这样设计的好处是能将RegionServer的负载均衡，否则容易产生所有新数据都在集中在一个RegionServer上堆积的现象，这一点还可以结合table的与分区设计。

　　减少Column Family数量

　　不要在一张表中定义太多的column family。目前HBase并不能很好的处理超过2-3个column family的表，因为某个column family在flush的时候，它临近的column family也会因关联效应被触发flush，最终导致系统产生更过的I/O;

　　设置最大版本数

　　创建表的时候，可以通过 HColumnDescriptor.setMaxVersions(int maxVersions) 设置表中数据的最大版本，如果只需要保存最新版本的数据，那么可以设置 setMaxVersions(1)。

　　缓存策略(setCaching)

　　创建表的时候，可以通过HColumnDEscriptor.setInMemory(true)将表放到RegionServer的缓存中，保证在读取的时候被cache命中。

　　设置存储生命期

　　创建表的时候，可以通过HColumnDescriptor.setTimeToLive(int timeToLive)设置表中数据的存储生命周期，过期数据将自动被删除

声明：本站稿件版权均属千锋教育所有，未经许可不得擅自转载。

上一篇

大数据之hbase的优化读数据方面

下一篇

数据及集群管理（二）

猜你喜欢LIKE

大数据的五个V是什么?

大数据的五个V是什么?

大数据中Store相关有哪些

大数据中Store相关有哪些

数据中台和数仓构建

数据中台和数仓构建

元数据管理apache atlas

元数据管理apache atlas

最新文章NEW

大数据的五个V是什么?

大数据的五个V是什么?

数据及集群管理（三）

数据及集群管理（三）

数据及集群管理（二）

数据及集群管理（二）

数据及集群管理（一）

数据及集群管理（一）

相关推荐HOT

更多>>

大数据中HRegion的作用

HRegion定位：HRegion被分配给哪个HRegionServer是完全动态的，所以需要机制来定位HRegion具体在哪个HRegionServer，HBase使用三层结构来定位HR...详情>>

2022-12-09 18:05:29

大数据中HRegionServer的作用

负责切分正在运行过程中变得过大的HRegion可以看到，Client访问HBase上的数据并不需要HMaster参与，寻址访问ZooKeeper和HRegionServer，数据读...详情>>

2022-12-09 17:56:12

大数据中HMaster的作用

HBase中的每张表都通过键按照一定的范围被分割成多个子表(HRegion)，默认一个HRegion超过256M就要被分割成两个，这个过程由HRegionServer管理，...详情>>

2022-12-09 17:55:15

如果让你处理hbase怎么保证数据的安全性可靠性？

hbase是基于hdfs的一种数据存储解决方案，所以有关数据的安全性可靠性可以利用hdfs自身的副本机制保障。另外原生的hbase(1.x)并没有提供数据备...详情>>

2022-12-09 17:53:39

传统数仓的程度有哪些

传统数仓的程度(建模工具、ETL工具、BI报表工具、调度系统)，建模工具：powerDesiger、Erwin、Visio，ETL工具: kettle/informatic(主流的两款) ...详情>>

2022-12-08 18:02:24

大数据培训问答 更多>>

大数据都学什么？5大核心知识必学内容有哪些

大数据报班多少钱？如何选择培训机构

人工智能学什么？自学可以成才吗

数据处理包括哪些内容？是不是所有课程需要分别报课

大数据分析需要学什么？怎么学比较好

人工智能专业学什么？人工智能有哪些课程

大数据数据分析师要学什么？好就业吗

大数据面试题库 更多>>

大数据的五个V是什么?

涨薪指数

数据及集群管理（三）

涨薪指数

数据及集群管理（二）

涨薪指数

大数据的五个V是什么?

数据及集群管理（三）

数据及集群管理（二）

数据及集群管理（一）

大数据之hbase的优化读数据方面

大数据之hbase的优化写入数据方面

大数据师资团队 更多>>

14天品质课程免费学

10年以上业内强师带你蜕变精英

提交领取