大数据hadoop和spark选择哪个?
大数据hadoop和spark选择哪个?
推荐答案
学习大数据的小伙伴会遇到两个库Hadoop和spark,不知道应该深入学习哪一个,这里小千就来给大家简单的介绍一下。
学习大数据的路线图
大数据的整体学习路线:java语言->sql语言->hadoop生态圈->scala语言->spark运算框架->flink运算框架->python语言
对于hadoop和spark的选择
Hadoop作为早期的大数据框架,主要处理了海量数据的存储、计算工作,使用MR计算模型稳定性、吞吐量较好,但由于中间环节需要落地,所以计算效率不高,而计算引擎Spark正是解决海量数据计算效率等问题的,采用了DAG计算模型加上优先基于内存处理所以速度较快,另外Spark作为整体技术栈还涉及到实时场景、图计算等其他技术方向。
总之,目前大数据的基本使用是以Hadoop为基础应用进行了数据存储,采用其他计算引擎在集群中进行计算,它们相互配合形成整个的技术解决方案的重要部分。
对于语言的选择(是java还是python)
从事大数据开发,Python和Java都要学习,首先要学习Java语言,Java是大数据的基础编程语言,除此之外还有一门必须的语言---Scala,它是专门用于大数据Spark开发的.当到了大数据高级阶段在做一些与大数据分析,人工智能,机器学习相关的工作时才会用到Python,换句话说对于大数据Java,Scala是基础必须要学,而Python等学到大数据高级时再学也可以.
做大数据,如果细说的话需要用到好几种,java,sql,scala,python,但是主要使用的是java与scala.
hadoop生态圈框架使用的都是java语言,spark,flink等目前流行的运算框架使用的是scala语言,进行数据仓库建设管理或相关开发使用的是hql(跟sql的语法结构非常相似),进行高级的机器学习,人工智能方向研发可以使用python语言.
如果你要从头学习大数据,肯定要先学习java,因为hadoop生态圈建设是大数据开发的基础.
对于零基础入门的小伙伴来说,自学的方式还是不建议选择,因为大数据涉及到的技术知识过多,自学一方面在搜集学习资料方面会比较麻烦,另一方面在学习路线上面也可能会出现偏差。
最后欢迎大家添加我们的大数据技术交流qq群,加群免费领取大数据学习资料和教程视频,大数据技术交流qq群:857910996 等你来哦~~~~~
猜你想问HOT
大数据最新问答更多>>
新大数据都学什么?5大核心知识必学内容有哪些
新大数据报班多少钱?如何选择培训机构
新人工智能学什么?自学可以成才吗
新数据处理包括哪些内容?是不是所有课程需要分别报课
新大数据分析需要学什么?怎么学比较好
新人工智能专业学什么?人工智能有哪些课程
新大数据数据分析师要学什么?好就业吗