大数据培训学习笔记分享:Hadoop集群搭建
在上一个月的千锋大数据培训课上,我们接触了很多关于Hadoop的理论和操作性的知识点,尤其在近期学习的Hadoop集群的搭建问题上,小细节,小难点拼频频出现,所以,今天集中总结以下笔记,希望对各位同学有所帮助。ps:以下不涉及完全分布式,只说明单机版和伪分布式。
一、hadoop本地模式和伪分布式模式之间的区别
1.单机(非分布式)模式。这种模式在一台单机上运行,没有分布式文件系统,而是直接读写本地操作系统的文件系统。
2.伪分布式运行模式。这种模式也是在一台单机上运行,但用不同的Java进程模仿分布式运行中的各类结点: (NameNode,DataNode,JobTracker,TaskTracker,SecondaryNameNode)。请注意分布式运行中的这几个结点的区别:从分布式存储的角度来说,集群中的结点由一个NameNode和若干个DataNode组成,另有一个SecondaryNameNode作为NameNode的备份;从分布式应用的角度来说,集群中的结点由一个JobTracker和若干个TaskTracker组成,JobTracker负责任务的调度,TaskTracker负责并行执行任务。TaskTracker必须运行在DataNode上,这样便于数据的本地计算。JobTracker和NameNode则无须在同一台机器上。一个机器上,既当namenode,又当datanode,或者说既是jobtracker,又是tasktracker。没有所谓的在多台机器上进行真正的分布式计算,故称为"伪分布式"。
二,hadoop本地模式的搭建
1.首先需要一台客户机。
2.安装jdk。
1)首先在客户机根目录root文件夹下建立tools文件夹:root> mkdir tools。
2)用远程连接工具连接客户机,拖拽压缩包到客户机 root/tools/目录下
3) 解压jdk到/etc/local下:tar -zxvf jdk-8u152-linux-x64.tar.gz -C /usr/local/
3.安装hadoop
1) 拖拽压缩包到客户机root/rools 目录下。
2)解压hadoop到etc/local/下:tar -zxvf hadoop-2.7.2.tar.gz -C /usr/local/。
4.配置环境变量
hadoop> vi /etc/profile
export JAVA_HOME=/usr/local/jdk1.8.0_152
export HADOOP_HOME=/usr/local/hadoop-2.7.2/
export CLASSPATH=.;JAVA_HOME/lib/dt.jar;JAVA_HOME/lib/tools.jar
export PATH=$JAVA_HOME/bi
PATH;HADOOP_HOME/bin;
HADOOP_HOME/sbin/;
5. hadoop version
java –version。以上两项,都能正常显示除版本号,即为环境搭建成功,以上步骤为本地模式搭建成功!
三,hadoop伪分布式模式的搭建(以上五步到配置环境搭建成功为基础)
1..配置集群
1)配置:hadoop-env.sh。Linux 系统中获取jdk 的安装路径:/usr/local/jdk1.8.0_15并修改JAVA_HOME 路径为:export JAVA_HOME=/opt/module/jdk1.8.0_144
2)配置:core-site.xml
3)配置:hdfs-site.xml
4)启动集群。格式化namenode(第一次启动时格式化,以后就不要总格式化) [qianfeng@hadoop101 hadoop-2.7.2]$ bin/hdfs namenode –format。启动namenode。[qianfeng@hadoop101 hadoop-2.7.2]$ sbin/hadoop-daemon.sh start namenode。启动datanode。[qianfeng@hadoop101 hadoop-2.7.2]$ sbin/hadoop-daemon.sh start datanode
5)查看集群是否成功。[qianfeng@hadoop101 hadoop-2.7.2]$ jps。13586 NameNode。13668 DataNode。13786 Jps。//正常应该启动这三个进程
6)查看产生的log日志。当前目录:/usr/local/hadoop-2.7.2/logs>ls。
hadoop-qianfeng-datanode-hadoop.qianfeng.com.log
hadoop-qianfeng-datanode-hadoop.qianfeng.com.out
hadoop-qianfeng-namenode-hadoop.qianfeng.com.log
hadoop-qianfeng-namenode-hadoop.qianfeng.com.out
SecurityAuth-root.audit
cat hadoop-qianfeng-datanode-hadoop101.log
以上步骤即为伪分布式搭建成功!
学习大数据开发,可以参考千锋提供的大数据学习路线,该学习路线提供完整的大数据开发知识体系,内容包含Linux&&Hadoop生态体系、大数据计算框架体系、云计算体系、机器学习&&深度学习。根据千锋大数据培训机构提供的学习路线图可以让你对学习大数据需要掌握的知识有个清晰的了解,并快速入门大数据开发。

猜你喜欢LIKE
相关推荐HOT
更多>>
无重复字符的最长子串
题目描述:给定一个字符串,请你找出其中不含有重复字符的 最长子串 的长度。示例 1: 输入: "abcabcbb" 输出: 3解释: 因为无重复字符的最长子串...详情>>
2022-10-11 14:52:00
如何自定义累加器
spark提供了一个累加器用于在整个流程中额外执行一个MR任务,它可以在driver端被初始化发送给各个Task,然后在每个Task中为它添加数据,最终经...详情>>
2022-09-30 15:17:00
如何写数据
1. 客户端从zk中获取meta表位置,到对应regionServer上获取该表,或直接从缓存中读取该表。 2. 客户端从meta表中获取要写的数据存放的region和...详情>>
2022-09-26 11:24:00
spark作业的最大并行度
spark作业的最大并行度=excutor个数*每个excutor的cpu core数 但spark的当前并行度取决于task数,而task数=分区数。详情>>
2022-09-23 16:29:00
kafka的topic,partition,replica,message的理解
如果配置为2,表示除了leader节点,对于topic里的每一个partition,都会有一个额外的备份。message:实际写入Kafka中并可以被读取的消息记录。每...详情>>
2022-09-20 16:59:00大数据培训问答更多>>
新大数据适合女生学吗?
新哪家大数据分析培训班好
新大数据培训班需要多少钱?怎么挑选大数据培训班
新大数据培训班需要多少钱?大数据就业方向有哪些
新大数据培训班靠谱吗?大数据发展前景怎么样
新大数据分析培训哪里好
新大数据培训学费多少?课程内容是什么
大数据面试题库 更多>>
大数据的五个V是什么?
数据及集群管理(三)
数据及集群管理(二)
数据及集群管理(一)
大数据之hbase的优化读数据方面
大数据之hbase的优化写入数据方面
开班信息
北京校区
- 北京校区
- 大连校区
- 广州校区
- 成都校区
- 杭州校区
- 长沙校区
- 合肥校区
- 南京校区
- 上海校区
- 深圳校区
- 武汉校区
- 郑州校区
- 西安校区
- 青岛校区
- 重庆校区
- 太原校区
- 沈阳校区
- 北京校区
- 大连校区
- 广州校区
- 成都校区
- 杭州校区
- 长沙校区
- 合肥校区
- 南京校区
- 上海校区
- 深圳校区
- 武汉校区
- 郑州校区
- 西安校区
- 青岛校区
- 重庆校区
- 太原校区
- 沈阳校区
