大数据培训课程分享:MapReduce经验杂谈十则
今天想和大家简要总结一下在千锋大数据培训课程做的一个总结,关于MapReduce的相关知识点,因为学识浅薄,可能会有遗漏的的地方,欢迎各位大佬批评指正!
下面是我个人认为非常值得注意的几处知识点,希望能为大家的学习提供便利。
1. HDFS上的文件以行读取,其中key是行中首字母的起始位置,value是该行的文本内容,一行为一对KV键值对。
2. 通过FileInputFormat将文件切分成split块,FileInputFormat只会划分比block大的部分。切割完毕后通过TextInputFormat对split块中的每行记录解析为K1V1键值对。
3. 一个split块对应一个mapper task任务,map接收K1V1键值对后执行map方法,后输出新的K2V2键值对。
4. K2V2键值对添加到环形缓冲区中,当数据量达到80%(默认数据,可以使用参数mapreduce.map.sort.spill.percent修改)之后,这80%环形区会触发溢出操作,然后被封锁,mappertask会向剩余部分继续写入数据。同时会对写完的数据执行partitioner(分区)操作,然后对不同分区中的数据进行排序分组(sort)操作,最后对分组后的数据归约(combiner,通过Key进行归并,减少reduce的负担)。
5. 每发生一次溢出操作就会在磁盘中生成换一个磁盘文件,当磁盘文件写入完毕后,环形缓冲区中的封锁区会清空数据,继续接收数据写入。
6.mapper task的数据全部写出完毕后,会将多个磁盘文件及内存中多余的数据写出到一个本地磁盘文件中。
7.此时会通知APPMaster完成map task,当完成数量达到5%时,就启动reduce task任务。
8. reduce生成fetcher线程组(默认5个)将不同分区的的数据copy到不同的reduce节点上。(一个mapper上的分区可能会被发送到多个reduce,同样一个reduce也会接收来自不同的mapper的分区)
9.fetcher线程组将数据写入内存的过程中,内存满75%时,也会发生溢出操作,触发sort和merge操作,最后生成一个磁盘文件(merge操作一般是从内存到磁盘,最后再从磁盘到磁盘)
10. 最后磁盘文件的数据会被分组group来提供给reduce方法处理。根据 FileOutputFormat写入目标文件里。
综上,为MapReuce的细节部分,这部分操作大家比较了解,但是马虎之下容易实现操作性的错误,简要记录十点,望大家多多留意,大数据时代,我们无法安然避世,就业的压力摆在面前,只有金甲加身,付出汗水才能获得高薪,最后送大家一句话,不忘初心,方得始终。

猜你喜欢LIKE
相关推荐HOT
更多>>
无重复字符的最长子串
题目描述:给定一个字符串,请你找出其中不含有重复字符的 最长子串 的长度。示例 1: 输入: "abcabcbb" 输出: 3解释: 因为无重复字符的最长子串...详情>>
2022-10-11 14:52:00
如何自定义累加器
spark提供了一个累加器用于在整个流程中额外执行一个MR任务,它可以在driver端被初始化发送给各个Task,然后在每个Task中为它添加数据,最终经...详情>>
2022-09-30 15:17:00
如何写数据
1. 客户端从zk中获取meta表位置,到对应regionServer上获取该表,或直接从缓存中读取该表。 2. 客户端从meta表中获取要写的数据存放的region和...详情>>
2022-09-26 11:24:00
spark作业的最大并行度
spark作业的最大并行度=excutor个数*每个excutor的cpu core数 但spark的当前并行度取决于task数,而task数=分区数。详情>>
2022-09-23 16:29:00
kafka的topic,partition,replica,message的理解
如果配置为2,表示除了leader节点,对于topic里的每一个partition,都会有一个额外的备份。message:实际写入Kafka中并可以被读取的消息记录。每...详情>>
2022-09-20 16:59:00大数据培训问答更多>>
新大数据适合女生学吗?
新哪家大数据分析培训班好
新大数据培训班需要多少钱?怎么挑选大数据培训班
新大数据培训班需要多少钱?大数据就业方向有哪些
新大数据培训班靠谱吗?大数据发展前景怎么样
新大数据分析培训哪里好
新大数据培训学费多少?课程内容是什么
大数据面试题库 更多>>
大数据的五个V是什么?
数据及集群管理(三)
数据及集群管理(二)
数据及集群管理(一)
大数据之hbase的优化读数据方面
大数据之hbase的优化写入数据方面
开班信息
北京校区
- 北京校区
- 大连校区
- 广州校区
- 成都校区
- 杭州校区
- 长沙校区
- 合肥校区
- 南京校区
- 上海校区
- 深圳校区
- 武汉校区
- 郑州校区
- 西安校区
- 青岛校区
- 重庆校区
- 太原校区
- 沈阳校区
- 北京校区
- 大连校区
- 广州校区
- 成都校区
- 杭州校区
- 长沙校区
- 合肥校区
- 南京校区
- 上海校区
- 深圳校区
- 武汉校区
- 郑州校区
- 西安校区
- 青岛校区
- 重庆校区
- 太原校区
- 沈阳校区
