前面我们讲到Hadoop这一主流大数据平台的基本结构,了解到大数据这一发展趋势,带动起整个 Hadoop生态链的扩张。其中,既有来自软件领域(Cloudera、SAP、微软、甲骨文等)也有来自传统硬件厂商(英特尔、EMC、华为等)的Hadoop解决方案。
在软件领域或者说Hadoop生态领域,Cloudera是规模最大、知名度最高的企业,它汇聚了Facebook、谷歌、雅虎、甲骨文前工程师的优秀团队力量。从成立之初至今,已经前后数次募集巨额资金,并也成为当前大数据领域最强有力的解决方案服务商之一。该公司在Hadoop发行版基础上增添了Cloudera 管理器控制台和企业级服务支持,这些服务对于大数据环境下的平台管理和数据服务,提供了强有力的支持。
Cloudera提供的Hadoop属于目前市面上Hadoop两大开源版本之一(另一开源版本为Apache),它也称 为CDH3版本。就理论上来说,CDH3版本应该支持Apache版本的全部组件及其子项目。集成hive、pig等基于Hadoop的SQL接口,使得这些软件的安装、配置和使用的成本得以降低并且有望实现标准化。但其 提供的sqoop工具没有独立提供(单独收费),而且Cloudera CDH默认没有提供eclipse插件(需自己编译),插件方面和Apache hadoop插件也不兼容。另一个不足之处是,它提供的Hadoop并不是采用最新版本的2.0版本。
下面,我们来看看其他版本的Hadoop大数据解决方案。前不久,存储巨头EMC发布了自身的Apache Hadoop发行版——Pivotal HD。该版本Hadoop能够与Greenplum(2010年EMC收购的MPP数据库厂商)数据库进行整合,而不仅仅是在Hadoop中运行SQL。
EMC Hadoop发行版:Pivotal HD(来源:EMC)
甲骨文则一直强调软硬平台的整合,其大数据机(Big Data Appliance)和Exalytics商务智能服务器,被认为是甲骨文进军大数据的标志。该大数据机包含开源Apache Hadoop、Oracle NoSQL数据库、Oracle数据集成Hadoop应用适配器、Oracle Hadoop装载器,并与Cloudera公司合作提供Apache Hadoop系列软件。
IBM则对数据挖掘和数据分析颇感兴趣,包括一直在倡导的“智慧地球”理念。在大数据解决方案层面,有基于Hadoop领域的InfoSphere BigInsights、流计算领域的InfoSphere Streams、数据仓库方面的InfoSphere Warehouse和etezza以及信息整合与治理(Information Integration and Governance) 方面的产品Optim和Guardium。
IBM宣布基于Hadoop的大数据分析平台之后,Hortonworks也随之发布了基于Hadoop的数据平台的技术预览版(HDP,Hortonworks Data Platform)。和其他公司一样MapR将基于开源的Hadoop产品商业化并进行发售。不同的是,MapR提供了很多不同于Hadoop的特性(比如快照)。MapR拥有免费和商业两个版本的Hadoop,免费版本在功能上有所缩减。
Hortonworks大数据平台架构(来源:Hortonworks)
值得注意的是,MapR与其他版本的Hadoop有所不同,它寄希望于改写架构重写HDFS以消除 Hadoop在完全可读写的文件系统和快照(数据恢复)、镜像(数据备份)支持方面的弱点。MapR目前可提供比开源版本快3倍的性能,支持快照可避免SPOF(Single Point of Failure,单点故障)。从而减少了namenode机器的开支和NAS对namenode做元数据备份的必要,提高平台利用率,并保持与现有Hadoop在API方面的兼容性。
然而,MapR版本的Hadoop看上去很美好,但困难重重。对于通过集群这一分布式平台实现大数据价值挖掘的Hadoop解决方案来说,其实还有着唾手可得、水到渠成的解决方案——Intel发行版Hadoop。
众所周知,英特尔在开放服务器领域有着丰富而又完整的解决方案,在云计算、数据中心领域积累了大量实践经验。英特尔结合自己强大技术、成熟市场和经验,可打造面向大数据应用的Hadoop高效平台,有助于提供相比其他Hadoop平台更可靠、更高性能、更多和更易于管理的大数据解决方案。