服务器
    作者:王迪

    开源乘云而上系列:云平台中拼图“玩具”

         [ 中关村在线 原创 ] 暂无评论

      熟悉大数据的人一定对Hadoop工具不陌生,Hadoop是一个由Apache基金会所开发的分布式系统基础架构。之前谈到Hadoop,业界总与MapReduce放在一起,但其实HDFS和MapReduce一样都是Hadoop框架最核心的设计。笔者了解到软件的安装部署是需要付费,由于Hadoop在管理工具与支持服务方面的不足,企业在使用过程中很容易产生额外费用。另外,由于它没有优化程序,专业运行环境中人工输入代码费用不菲,更不用提部署Hadoop集群的硬件和相关配置的成本。

      正如上面谈到,Hadoop有数据应用上的优势,HDFS和MapReduce都是基础,但并不容易部署与实施,其实如今针对Hadoop开源技术推广,市场开发应用上主要有两个圈子:一个是做算法、分析的圈子,另外一个是做架构、设计的圈子,如何把这两个圈子技术有效的结合产生应用是大数据的突破点。

      很多人最大的疑惑:那Hadoop技术未来真正的价值是什么?从技术特点上来说,之前提到Hadoop由采用HDFS可靠数据存储服务,以及MapReduce技术的高性能并行数据处理服务是其优势所在。而对于Hadoop来说,尽管提供了数据存储和并行处理平台,但其真正的价值来自于添加件和功能,以及Hadoop Common、Chukwa、HBase、Hive、Pig和ZooKeeper这项技术的增加功能性和新能力的子项目实现。

      由此,笔者感觉Hadoop尽管应用于分布式环境,其开放的生态系统如同Linux一样,各个IT厂商通过集成和测试Apache Hadoop的组件,并添加厂商自身的工具和管理功能来不断扩展Hadoop生态环境。

       Spark与Hadoop亦友非敌

      随着Hadoop日益成为公司处理大数据的企业平台之选。Spark则是运行在Hadoop之上的内存处理解决方案。Hadoop最大的用户在自己的Hadoop集群中运行Spark。Cloudera和Hortonworks在其Hadoop包中也加入Spark。

    明与暗角力!开源云平台中的拼图“玩具”

      为什么会产生这种混淆?正如之前谈到Hadoop由两大部分组成:HDFS和YARN的计算引擎。其YARN最初的框架是由谷歌MapReduce用来帮助处理海量网络抓取数据。Spark是另一个这样的框架,谈论Spark与Hadoop的“争斗”时,开发者更喜欢Spark,而非之前MapReduce框架。

      但笔者认为MapReduce不应该和Hadoop等同,只是Hadoop集群处理数据的诸多方式之一。Spark可以替代MapReduce。在过去几年中,基于Hadoop的大数据技术涌现出创新:Hadoop从批处理SQL进化到了交互操作;从MapReduce变成了Spark等多个框架。

      由此,Spark不会取代Hadoop。相反,Hadoop是Spark的基石。随着平台不断变化,企业将通过商业价值的转化使得对Hadoop和Spark技术的采用也增加。

    标签:服务器
    提示:支持键盘“← →”键翻页
    本文导航

    关注排行榜

    产品品牌

    文章推荐

    互动沙龙

    相关内容 网友评论 返回首页
    专家咨询