大数据培训课程分享：MapReduce经验杂谈十则_千锋教育

千锋教育-做有情怀、有良心、有品质的职业教育机构

手机站

千锋教育

千锋学习站 | 随时随地免费学

千锋教育

扫一扫进入千锋手机站

领取全套视频

千锋教育

关注千锋学习站小程序
随时随地免费学习课程

行业头条

大数据分析入门到就业要多久？ 查看详情>>

大数据软件开发的就业前景如何？ 查看详情>>

大数据目前就业前景怎么样？ 查看详情>>

大数据培训就业方向有哪些？ 查看详情>>

大数据分析就业高薪岗位介绍 查看详情>>

大数据分析编程就业方向如何？ 查看详情>>

女生学大数据分析就业前景好吗？ 查看详情>>

学习大数据编程好就业吗？ 查看详情>>

大数据分析就业前景及工资如何？ 查看详情>>

大数据有那些就业方向？ 查看详情>>

400-811-9990 全国咨询热线

首页视频教程培训课程师资团队技术干货常见问题面试题职场就业零基础学大数据行业资讯

【热点话题】大数据技术干货大数据学习教程大数据学习笔记大数据面试题大数据培训问答大数据培训机构哪些好大数据职场就业

当前位置：大数据培训 > 大数据技术干货 > 大数据培训课程分享：MapReduce经验杂谈十则

大数据培训课程分享：MapReduce经验杂谈十则

来源：千锋教育

发布人：千锋

时间： 2019-02-25 15:10:27 1551078627

　　今天想和大家简要总结一下在千锋大数据培训课程做的一个总结，关于MapReduce的相关知识点，因为学识浅薄，可能会有遗漏的的地方，欢迎各位大佬批评指正!

　　下面是我个人认为非常值得注意的几处知识点，希望能为大家的学习提供便利。

　　1. HDFS上的文件以行读取，其中key是行中首字母的起始位置，value是该行的文本内容，一行为一对KV键值对。

　　2. 通过FileInputFormat将文件切分成split块，FileInputFormat只会划分比block大的部分。切割完毕后通过TextInputFormat对split块中的每行记录解析为K1V1键值对。

　　3. 一个split块对应一个mapper task任务，map接收K1V1键值对后执行map方法，后输出新的K2V2键值对。

　　4. K2V2键值对添加到环形缓冲区中，当数据量达到80%(默认数据，可以使用参数mapreduce.map.sort.spill.percent修改)之后，这80%环形区会触发溢出操作，然后被封锁，mappertask会向剩余部分继续写入数据。同时会对写完的数据执行partitioner(分区)操作，然后对不同分区中的数据进行排序分组(sort)操作，最后对分组后的数据归约(combiner,通过Key进行归并，减少reduce的负担)。

　　5. 每发生一次溢出操作就会在磁盘中生成换一个磁盘文件，当磁盘文件写入完毕后，环形缓冲区中的封锁区会清空数据，继续接收数据写入。

　　6.mapper task的数据全部写出完毕后，会将多个磁盘文件及内存中多余的数据写出到一个本地磁盘文件中。

　　7.此时会通知APPMaster完成map task，当完成数量达到5%时，就启动reduce task任务。

　　8. reduce生成fetcher线程组(默认5个)将不同分区的的数据copy到不同的reduce节点上。(一个mapper上的分区可能会被发送到多个reduce，同样一个reduce也会接收来自不同的mapper的分区)

　　9.fetcher线程组将数据写入内存的过程中，内存满75%时，也会发生溢出操作，触发sort和merge操作，最后生成一个磁盘文件(merge操作一般是从内存到磁盘，最后再从磁盘到磁盘)

　　10. 最后磁盘文件的数据会被分组group来提供给reduce方法处理。根据 FileOutputFormat写入目标文件里。

　　综上，为MapReuce的细节部分，这部分操作大家比较了解，但是马虎之下容易实现操作性的错误，简要记录十点，望大家多多留意，大数据时代，我们无法安然避世，就业的压力摆在面前，只有金甲加身，付出汗水才能获得高薪，最后送大家一句话，不忘初心，方得始终。

声明：本站稿件版权均属千锋教育所有，未经许可不得擅自转载。

上一篇

大数据培训课程哪个好

下一篇

大数据培训课程哪里的好

猜你喜欢LIKE

如何进行数据清洗?数据清洗的基本流程

如何进行数据清洗?数据清洗的基本流程

Zookeeper选举机制具体是什么

Zookeeper选举机制具体是什么

hbase三种查询方式是什么

hbase三种查询方式是什么

hbase和hive的区别是什么

hbase和hive的区别是什么

最新文章NEW

索引有什么作用?在mongodb中索引分为几类

索引有什么作用?在mongodb中索引分为几类

如何进行数据清洗?数据清洗的基本流程

如何进行数据清洗?数据清洗的基本流程

主键约束是什么意思?如何实现mysql主键约束

主键约束是什么意思?如何实现mysql主键约束

eureka和zookeeper的区别对比

eureka和zookeeper的区别对比

相关推荐HOT

更多>>

索引有什么作用?在mongodb中索引分为几类

索引(Index)是数据库中的一种数据结构，用来提高数据检索的效率。它们可以帮助数据库系统快速地定位和访问需要的数据。在 MongoDB 中，索引也很...详情>>

2023-04-11 13:43:47

主键约束是什么意思?如何实现mysql主键约束

主键约束是一种在数据库中用于保证表中某个列的唯一性和非空性的约束，该列将成为表的主键。主键的作用是为了唯一标识表中的每一行数据，以方便...详情>>

2023-03-17 16:51:01

eureka和zookeeper的区别对比

Eureka和Zookeeper都是服务发现和注册的工具，但它们有以下几个不同点：架构设计：Eureka采用了集中式的架构，其中一个服务作为Eureka Server，...详情>>

2023-03-07 15:35:18

Zookeeper和Eureka的区别都有哪些？

Zookeeper和Eureka都是分布式系统中常用的服务发现和注册组件，它们的主要区别如下：数据一致性：Zookeeper是一个高度可靠的分布式数据一致性解...详情>>

2023-03-07 15:26:19

zookeeper和eureka的区别介绍

1.架构设计：ZooKeeper是一个分布式的协调服务，它提供了高可用、高可靠性的数据存储和协调服务，可以作为分布式系统中的一个通用组件使用。而E...详情>>

2023-03-03 15:00:46

大数据培训问答 更多>>

大数据都学什么？5大核心知识必学内容有哪些

大数据报班多少钱？如何选择培训机构

人工智能学什么？自学可以成才吗

数据处理包括哪些内容？是不是所有课程需要分别报课

大数据分析需要学什么？怎么学比较好

人工智能专业学什么？人工智能有哪些课程

大数据数据分析师要学什么？好就业吗

大数据面试题库 更多>>

大数据的五个V是什么?

涨薪指数

数据及集群管理（三）

涨薪指数

数据及集群管理（二）

涨薪指数

大数据的五个V是什么?

数据及集群管理（三）

数据及集群管理（二）

数据及集群管理（一）

大数据之hbase的优化读数据方面

大数据之hbase的优化写入数据方面

大数据师资团队 更多>>

14天品质课程免费学

10年以上业内强师带你蜕变精英

提交领取