`
zcwfeng
  • 浏览: 98206 次
  • 性别: Icon_minigender_1
  • 来自: 吉林
社区版块
存档分类
最新评论

Hadoop版本选择探讨

阅读更多
由于Hadoop版本混乱多变,因此,Hadoop的版本选择问题一直令很多初级用户苦恼。本文总结了Apache Hadoop和Cloudera Hadoop的版本衍化过程,并给出了选择Hadoop版本的一些建议。

1.Apache Hadoop

1.1Apache版本衍化

截至目前(2012年12月23日),Apache Hadoop版本分为两代,我们将第一代Hadoop称为Hadoop 1.0,第二代Hadoop称为Hadoop 2.0。第一代Hadoop包含三个大版本,分别是0.20.x,0.21.x和0.22.x,其中,0.20.x最后演化成1.0.x,变成了稳定版,而0.21.x和0.22.x则NameNode HA等新的重大特性。第二代Hadoop包含两个版本,分别是0.23.x和2.x,它们完全不同于Hadoop 1.0,是一套全新的架构,均包含HDFS Federation和YARN两个系统,相比于0.23.x,2.x增加了NameNode HA和Wire-compatibility两个重大特性。

经过上面的大体解释,大家可能明白了Hadoop以重大特性区分各个版本的,总结起来,用于区分Hadoop版本的特性有以下几个:

(1)Append 支持文件追加功能,如果想使用HBase,需要这个特性。

(2)RAID 在保证数据可靠的前提下,通过引入校验码较少数据块数目。详细链接:

https://issues.apache.org/jira/browse/HDFS/component/12313080

(3)Symlink 支持HDFS文件链接,具体可参考: https://issues.apache.org/jira/browse/HDFS-245

(4)Security Hadoop安全,具体可参考:https://issues.apache.org/jira/browse/HADOOP-4487

(5)NameNode HA 具体可参考:https://issues.apache.org/jira/browse/HDFS-1064

(6)HDFS Federation和YARN

需要注意的是,Hadoop 2.0主要由Yahoo独立出来的hortonworks公司主持开发。

1.2Apache版本下载

(1)各版本说明:http://hadoop.apache.org/releases.html

(2)下载稳定版:找到一个镜像,下载stable文件夹下的版本。

(3)Hadoop最全版本:http://svn.apache.org/repos/asf/hadoop/common/branches/,可直接导到eclipse中。

2.Cloudera Hadoop

2.1CDH版本衍化

Apache当前的版本管理是比较混乱的,各种版本层出不穷,让很多初学者不知所措,相比之下,Cloudera公司的Hadoop版本管理的要很多。

我们知道,Hadoop遵从Apache开源协议,用户可以免费地任意使用和修改Hadoop,也正因此,市面上出现了很多Hadoop版本,其中比较出名的一是Cloudera公司的发行版,我们将该版本称为CDH(Cloudera Distribution Hadoop)。截至目前为止,CDH共有4个版本,其中,前两个已经不再更新,最近的两个,分别是CDH3(在Apache Hadoop 0.20.2版本基础上演化而来的)和CDH4在Apache Hadoop 2.0.0版本基础上演化而来的),分别对应Apache的Hadoop 1.0和Hadoop 2.0,它们每隔一段时间便会更新一次。

Cloudera以patch level划分小版本,比如patch level为923.142表示在原生态Apache Hadoop 0.20.2基础上添加了1065个patch(这些patch是各个公司或者个人贡献的,在Hadoop jira上均有记录),其中923个是最后一个beta版本添加的patch,而142个是稳定版发行后新添加的patch。由此可见,patch level越高,功能越完备且解决的bug越多。

Cloudera版本层次更加清晰,且它提供了适用于各种操作系统的Hadoop安装包,可直接使用apt-get或者yum命令进行安装,更加省事。

2.2CDH版本下载

(1)版本含义介绍:

https://ccp.cloudera.com/display/DOC/CDH+Version+and+Packaging+Information

(2)各版本特性查看:

https://ccp.cloudera.com/display/DOC/CDH+Packaging+Information+for+Previous+Releases

(3)各版本下载:

CDH3:http://archive.cloudera.com/cdh/3/

CDH4:http://archive.cloudera.com/cdh4/cdh/4/

注意,Hadoop压缩包在这两个链接中的最上层目录中,不在某个文件夹里,很多人进到链接还找不到安装包!

3.如何选择Hadoop版本

当前Hadoop版本比较混乱,让很多用户不知所措。实际上,当前Hadoop只有两个版本:Hadoop 1.0和Hadoop 2.0,其中,Hadoop 1.0由一个分布式文件系统HDFS和一个离线计算框架MapReduce组成,而Hadoop 2.0则包含一个支持NameNode横向扩展的HDFS,一个资源管理系统YARN和一个运行在YARN上的离线计算框架MapReduce。相比于Hadoop 1.0,Hadoop 2.0功能更加强大,且具有更好的扩展性、性能,并支持多种计算框架。

当我们决定是否采用某个软件用于开源环境时,通常需要考虑以下几个因素:

(1)是否为开源软件,即是否免费。

(2)是否有稳定版,这个一般软件官方网站会给出说明。

(3)是否经实践验证,这个可通过检查是否有一些大点的公司已经在生产环境中使用知道。

(4)是否有强大的社区支持,当出现一个问题时,能够通过社区、论坛等网络资源快速获取解决方法。

考虑到以上几个因素,我们分析一下开源软件Hadoop。对于Hadoop 2.0而言,目前尚不稳定,无法用于生产环境,因此,如果当前你正准备使用Hadoop,那么只能从Hadoop 1.0中选择一个版本,而目截至目前(2012年12月23日),Apache和Cloudera最新的稳定版分别是Hadoop 1.0.4和CDH3U4,因此,你可以从中任选一个使用。

原创文章,转载请注明: 转载自董的博客

本文链接地址: http://dongxicheng.org/mapreduce-nextgen/how-to-select-hadoop-versions/

作者:Dong,作者介绍:http://dongxicheng.org/about/

本博客的文章集合:

分享到:
评论

相关推荐

    Hadoop架构再探讨1

    第8章 Hadoop架构再探讨(PPT版本号:2017年2月版本)温馨提示:编辑幻灯片母版,可以修改每页PPT的厦大校徽和底部文字《大数据技术原理与应用(第2版

    Hadoop_in_Action

    TABLE OF CONTENTS PART1 Hadoop - A Distributed ...加入探讨云计算,云应用,网格计算,分布式计算,讨论SaaS、PaaS、IaaS、MSP的发展,资料分享、共同学习、项目合作、娱乐交流。 快乐编程+快乐你我=快乐生活。

    Hadoop海量数据处理

    本书主要介绍Hadoop技术的相关知识,不但详细介绍了Hadoop、MapReduce、HDFS、Hive和Sqoop,还深入探讨了Hadoop的运维和调优,并包含了一个具有代表性的完整的基于Hadoop的商业智能系统的设计和实现。, 本书的最大...

    Hadoop集群中影响应用性能的因素分析

    其次,设计实验探讨了不同规模集群环境下,两类数据集以及不同大小的数据块对应用性能的影响程度.最后,综合实验结果发现,在数据量一定的情况下,随着数据块的增大,map任务数的变化导致大文件数据集的执行效率越来越高于...

    Hadoop系统性能优化与功能增强综述_董新华.pdf

    在给出Hadoop系统基本框架的基础上,阐述了MapReduce并行计算框架优化、作业调度优化、HDFS性能优化、HBase性能优化和Hadoop功能增强等研究现状,分析已有技术的优势和不足,并探讨了未来的研究方向.

    一种基于 Hadoop 的大数据挖掘云服务及应用探讨.pdf

    一种基于 Hadoop 的大数据挖掘云服务及应用探讨.pdf

    基于Hadoop分布式系统的地质环境大数据框架探讨.pdf

    #资源达人分享计划#

    Hadoop开发者第一期入门专刊

    目录:1 Hadoop 介绍 2 Hadoop 在国内应用情况 3 Hadoop 源代码eclipse...56 探讨MapReduce 模型的改进 58 运行eclipse 编译出的Hadoop 框架 59 表关联在MapReduce 上的实现 63 Hadoop 计算平台和Hadoop 数据仓库的区别

    Hadoop源码分析(client端提交job到rm端)

    学习Hadoop源码过程中做的源码分析,共享一下,PPT中有我的邮箱,可以互相探讨。Hadoop源码分析(client端提交job到rm端)

    基于Hadoop生态的农产品价格预测分析系统的设计与研究.docx

    通过对Hadoop的原理和相关技术的分析,探讨了其在数据存储、计算和处理等方面的优势和局限性。同时,通过实际案例研究,展示了Hadoop在实际场景中的应用和效果。 适用人群: 本论文适合计算机科学与技术、软件工程...

    hadoop技术内幕:深入解析yarn架构设计与实现原理.epub

    深入解析yarn架构设计与实现原理》是“hadoop技术内幕”系列的第3本书,前面两本分别对common、hdfs和mapreduce进行了深入分析和讲解,赢得了极好的口碑,hadoop领域几乎人手一册,本书则对yarn展开了深入的探讨,是...

    基于hadoop平台的分布式数据挖掘系统的设计探讨.pdf

    基于hadoop平台的分布式数据挖掘系统的设计探讨.pdf

    Hadoop海量数据处理 技术详解与项目实战 大数据云计算ip 第2版

    基础篇详细介绍了Hadoop、MapReduce、HDFS、Hive和Sqoop,并深入探讨了Hadoop的运维和调优;应用篇则包含了一个具有代表性的完整的基于Hadoop的商业智能系统的设计和实现;结束篇对全书进行总结,并对技术发展做了...

    Hadoop技术架构培训

    Hadoop带来了廉价的处理大数据大数据的数据容量通常是10-100GB或更多同时数据 种类多种多样包括结构化、非结构化等的能力。...本文就重点探讨了Hadoop系统的组成部分并解释各个组成部分的功能。

    基于Hadoop生态系统的大数据解决方案综述

    然后从商业产品和Hadoop生态系统两个方面来探讨如何面对大数据,重点分析了Hadoop生态系统是如何解决的:分别用HDFS、HBase和OpenTSDB解决存储问题,用Hadoop MapReduce(Hive)和HadoopDB解决分析问题,用Sqoop和Ganglia...

    基于Hadoop大数据集群的搭建.docx

    通过对Hadoop的原理和相关技术的分析,探讨了其在数据存储、计算和处理等方面的优势和局限性。同时,通过实际案例研究,展示了Hadoop在实际场景中的应用和效果。 适用人群: 本论文适合计算机科学与技术、软件工程...

    基于Hadoop的海量图像检索.docx

    通过对Hadoop的原理和相关技术的分析,探讨了其在数据存储、计算和处理等方面的优势和局限性。同时,通过实际案例研究,展示了Hadoop在实际场景中的应用和效果。 适用人群: 本论文适合计算机科学与技术、软件工程...

    基于Hadoop的MapReduce架构研究.docx

    通过对Hadoop的原理和相关技术的分析,探讨了其在数据存储、计算和处理等方面的优势和局限性。同时,通过实际案例研究,展示了Hadoop在实际场景中的应用和效果。 适用人群: 本论文适合计算机科学与技术、软件工程...

Global site tag (gtag.js) - Google Analytics