HDFS文件管理系统简介

来源：千锋教育

发布人：wjy

时间： 2022-12-09 15:45:00 1670571900

　　Hadoop作为大数据主流的基础架构选择，至今仍然占据着重要的地位，而基于Hadoop的分布式文件系统HDFS，也在大数据存储环节发挥着重要的支撑作用。今天的大数据入门分享，我们就主要来讲讲HDFS分布式文件管理系统。

HDFS文件管理系统简介 1

　　一、HDFS文件管理系统

　　根据物理存储形态，数据存储可分为集中式存储与分布式存储两种。集中式存储以传统存储阵列(传统存储)为主，分布式存储(云存储)以软件定义存储为主。

　　传统存储：一向以可靠性高、稳定性好，功能丰富而著称，但与此同时，传统存储也暴露出横向扩展性差、价格昂贵、数据连通困难等不足，容易形成数据孤岛，导致数据中心管理和维护成本居高不下。

　　分布式存储：将数据分散存储在网络上的多台独立设备上，一般采用标准x86服务器和网络互联，并在其上运行相关存储软件，系统对外作为一个整体提供存储服务。

　　数据量越来越多，在一个操作系统管辖的范围存不下了，那么就分配到更多的操作系统管理的磁盘中，但是不方便管理和维护，因此需要一种系统来管理多台机器上的文件，这就是分布式文件管理系统。

HDFS文件管理系统简介 2

　　常见的分布式文件系统有GFS、HDFS、Lustre、Ceph、GridFS、mogileFS、TFS、FastDFS等，而HDFS作为Hadoop的核心组件之一，在市场主流的使用非常普遍。

　　二、HDFS文件系统的特点

　　优点：

　　(1)高容错性。数据自动保存多个副本。通过增加副本的形式，提高容错性，某一个副本丢失，可以自动恢复。

　　(2)适合大规模的数据、文件处理。

　　(3)采用流式的数据访问方式，一次存入多次读取，存入的数据只能追加，不能修改。

　　(4)可以部署在廉价的机器上。

　　缺点：

　　(1)不适合低延时的数据访问，对延时要求在毫秒级别的应用，不适合采用HDFS。HDFS是为高吞吐数据传输设计的，因此可能牺牲延时。HBase更适合低延时的数据访问。

　　(2)无法高效地对大量小文件进行存储。文件的元数据(如目录结构，文件block的节点列表，block-node mapping)保存在NameNode的内存中，整个文件系统的文件数量会受限于NameNode的内存大小。

　　(3)无法支持并发写入。一个文件只能有一个写，不允许多个线程同时写入。

　　(4)不支持文件随机修改，仅支持文件追加。

HDFS文件管理系统简介 3

　　五、HDFS文件系统常用命令

　　命令行的交互主要通过hadoop fs来操作。

　　1、显示目录信息

　　hadoop fs-ls/

　　hadoop fs-ls-R/

　　2、将本地文件或目录上传到HDFS

　　#hdfs dfs-put<本地文件路径><hdfs路径>

　　hdfs dfs-put ceshi.txt/opt/data

　　copyFromLocal命令同样用于上传文件

　　hdfs dfs-copyFromLocal./ceshi.txt/opt/data

　　3、将文件或目录从HDFS中的路径拷贝到本地

　　hdfs dfs-get/opt/data/ceshi.txt/usr/local

　　copyToLocal命令同样可以实现从HDFS中的路径拷贝到本地

　　hdfs dfs-copyToLocal/opt/data/ceshi.txt/usr/local

　　4、将文件或目录从HDFS的源路径移动到目标路径

　　不允许跨文件系统移动文件。

　　hdfs dfs-mv/opt/data/ceshi.txt/opt/local

　　5、将文件或目录复制到目标路径下

　　hdfs dfs-cp[-f][-p|-p[topax]]URI[URI…]

　　选项：

　　-f选项覆盖已经存在的目标。

　　-p选项将保留文件属性[topx](时间戳，所有权，权限，ACL，XAttr)。

　　6、删除一个文件或目录

　　hdfs dfs-rm[-f][-r|-R][-skipTrash]URI[URI…]

　　选项：

　　如果文件不存在，-f选项将不显示诊断消息或修改退出状态以反映错误。

　　-R选项以递归方式删除目录及其下的任何内容。

　　-r选项等效于-R。

　　-skipTrash选项将绕过垃圾桶(如果已启用)，并立即删除指定的文件。当需要从超配额目录中删除文件时，这非常有用。

　　7、追加一个文件到已存在的文件末尾

　　hadoop fs-appendToFile...

　　hadoop fs-appendToFile./ce.txt/opt/data/ceshi.txt

　　8、显示文件内容-cat

　　9、显示文件的末尾-tail

　　10、合并下载多个文件

　　#将HDFS的/opt/data目录下的文件合并为hb.txt文件并下载到本地

　　hadoop dfs-getmerge/opt/data/hb.txt

　　合并后的文件位于当前目录，不在hdfs中，是本地文件。

　　11、统计文件系统的可用空间信息-df

　　12、显示给定目录中包含的文件和目录的大小或文件的长度

　　hdfs dfs-du/opt/data/

　　HDFS作为Hadoop原生的核心组件之一，也是大数据学习当中的一块重点，分布式文件管理系统HDFS，需要深入去理解和掌握

　　注：本文部分文字和图片来源于网络，如有侵权，请联系删除。版权归原作者所有!此页面下方声明无效！

声明：本站稿件版权均属千锋教育所有，未经许可不得擅自转载。

HDFS架构演进之路

猜你喜欢LIKE

大数据开发：基于Hadoop的数仓设计

Kafka工作原理入门

Java大数据开发：Java基础类库和API

Apache Kafka分布式流式系统

大数据培训问答 更多>>

新

大数据都学什么？5大核心知识必学内容有哪些

新

大数据报班多少钱？如何选择培训机构

新

人工智能学什么？自学可以成才吗

新

数据处理包括哪些内容？是不是所有课程需要分别报课

新

大数据分析需要学什么？怎么学比较好

新

人工智能专业学什么？人工智能有哪些课程

新

大数据数据分析师要学什么？好就业吗

大数据面试题库 更多>>

大数据的五个V是什么?

涨薪指数

数据及集群管理（三）

涨薪指数

数据及集群管理（二）

涨薪指数

大数据的五个V是什么?

数据及集群管理（三）

数据及集群管理（二）

数据及集群管理（一）

大数据之hbase的优化读数据方面

大数据之hbase的优化写入数据方面

大数据师资团队 更多>>

14天品质课程免费学

10年以上业内强师带你蜕变精英

提交领取