大数据开发面试题总结

来源：千锋教育

发布人：千锋老师

时间： 2018-09-28 16:25:00 1538123100

　　以BAT为代表的很多大小互联网公司都在布局大数据，而目前大数据方面的人才依旧十分紧缺，比如大数据生态Spark需要的Scala工程师等。虽然说是人才稀缺，但技术疑点都不能马虎，该学习的技术一点都不能少，该好好准备的面试也不能少，不然自己拿那么高的薪资也很心虚不是?

千锋大数据 (3)

　　千锋大数据培训机构老师整理了一些大数据的相关面试题，拿来分享于你们!

　　1、简单概括安装hadoop的步骤

　　1)创建 hadoop 帐户。

　　2)setup.改 IP。

　　3)安装 java，并修改/etc/profile 文件，配置 java 的环境变量。

　　4)修改 Host 文件域名。

　　5)安装 SSH，配置无密钥通信。

　　6)解压 hadoop。

　　7)配置 conf 文件下 hadoop-env.sh、core-site.sh、mapre-site.sh、hdfs-site.sh。

　　8)配置 hadoop 的环境变量。

　　9)Hadoop namenode -format

　　10)Start-all.sh

　　2、怎样快速的杀死一个job

　　1)执行hadoop job -list 拿到job-id

　　2)Hadoop job kill hadoop-id

　　3、简单概述hadoop的combinet与partition的区别

　　combine和partition都是函数，中间的步骤应该只有shuffle! combine分为map端和reduce端，作用是把同一个key的键值对合并在一起，可以自定义的,partition是分割map每个节点的结果，按照key分别映射给不同的reduce，也是可以自定义的。这里其实可以理解归类。

　　4、描述 HBase, zookeeper 搭建过程

　　Zookeeper 的问题楼上爬爬有步骤，hbase 主要的配置文件有hbase.env.sh 主要配置的是JDK的路径以及是否使用外部的ZK，hbase-site.xml 主要配置的是与HDFS的链接的路径以及zk的信息，修改regionservers的链接其他机器的配置。

　　5、hbase宕机了如何处理?

　　HBase的RegionServer宕机超过一定时间后，HMaster会将其所管理的region重新分布到其他活动的RegionServer上，由于数据和日志都持久在HDFS中，该操作不会导致数据丢失。所以数据的一致性和安全性是有保障的。

　　但是重新分配的region需要根据日志恢复原RegionServer中的内存MemoryStore表，这会导致宕机的region在这段时间内无法对外提供服务。而一旦重分布，宕机的节点重新启动后就相当于一个新的RegionServer加入集群，为了平衡，需要再次将某些region分布到该server。

　　因此，Region Server的内存表memstore如何在节点间做到更高的可用，是HBase的一个较大的挑战。

　　6、kafka 中怎样储存数据，哟及结构的，data.....目录下有多少个分区，每个分区的存储格式是什么样的?

　　1)topic 是按照“主题名-分区”存储的

　　2)分区个数由配置文件决定

　　3)每个分区下最重要的两个文件是 0000000000.log 和 000000.index，0000000.log

　　以默认 1G 大小回滚。

　　7、请描述mapreduce中shuffer阶段的工作流程，如何优化shuffer阶段的?

　　Mapreduce的shuffer是出在map task到reduce task的这段过程中，首先会进入到copy过程，会通过http方式请求map task所在的task Tracker获取map task 的输出的文件，因此当map task结束，这些文件就会落到磁盘中，merge实在map端的动作，只是在map拷贝过来的数值，会放到内存缓冲区中，给shuffer使用，reduce阶段，不断的merge后终会把文件放到磁盘中。

　　8、写出你对zookeeper的理解

　　随着大数据的快速发展，多机器的协调工作，避免主要机器单点故障的问题，于是就引入管理机器的一个软件，他就是zookeeper来协助机器正常的运行。

　　Zookeeper有两个角色分别是leader与follower ，其中leader是主节点，其他的是副节点，在安装配置上一定要注意配置奇数个的机器上，便于zookeeper快速切换选举其他的机器。

　　在其他的软件执行任务时在zookeeper注册时会在zookeeper下生成相对应的目录，以便zookeeper去管理机器。

　　大数据的前景是毋庸置疑的，如果想进入这个“吸金”的领域，选择千锋大数据培训是明智之举。千锋大数据培训课程内容不断更新升级，让学生学到更加贴合企业需求和项目应用的一些高端技术，势必能进一步提高学生竞争力，为学员的高薪就业以及未来的发展保驾护航!

声明：本站稿件版权均属千锋教育所有，未经许可不得擅自转载。