一.概述
当前,hadoop发行版众多,其中包括华为发行版(收费)、Intel发行版(收费)、Cloudera发行版(Cloudera’s Distribution Including Apache Hadoop,简称 CDH,免费),Hortonworks发行版(Hortonworks Data Platform,简称 HDP,免费)等,这些发行版都是基于Apache Hadoop衍生而来。之所以衍生出如此众多发行版本,主要还是因为Apache Hadoop的开源协议:任何人可以对其进行修改,并作为开源或商业产品发布/销售。
国内绝大多数公司发行版的收费版本,尽管都增加一些开源版本没有的新特性,但绝大多数公司选择Hadoop版本时会重点考虑是否收费。由上述可知,目前Hadoop的三个主要免费版本都是国外厂商,分别是CDH、HDP,再加上Apache hadoop,而绝大多数机构会选择CDH版本。
二.hadoop社区版与第三方发行版的比较
1.Apache社区版
1)优点:
i)完全开源免费。
ii)社区活跃。
iii)文档、资料详实。
2)缺点:
i)繁杂的版本管理:版本管理混乱,各种版本众多,使用者感到迷惑。
ii)繁琐的集群安装、部署、配置:安装集群需针对所有节点修改大量的配置文件,效率低,易出错。
iii)复杂的集群管理和运维:集群的管理和运维,需第三方的软件支持(如:ganglia,nagois等),运维难度大。
iv)复杂的生态环境:hadoop生态圈中,组件(如:Hive,Mahout,Sqoop,Flume,Spark,Oozie等)的选择和使用,需考虑兼容性等方面的大量因素,解决这些问题耗费大量的时间和精力。