VMware扩展大数据试图虚拟化Hadoop _VMware虚拟化软件

　　VMware近日宣布，将允许用vSphere来管理Hadoop集群。这样一来，成千上万的VMware企业客户将能够使用他们已经熟悉的软件来控制Hadoop部署。从技术方面说，这提高了该公司在虚拟化基础设施运行Hadoop节点的水平，同时将虚拟化的优势带到了大数据平台。

　　VMware日前推出了VMware vSphere Big Data Extensions(大数据扩展)，这将允许该公司广受欢迎的基础设施管理软件来控制企业客户建立的Hadoop集群。该扩展仍然需要一个基础Hadoop平台，HortonWorks、MapR、Cloudera或者VMware的合作伙伴Pivotal都基于这个开源Apache代码来分配。这个大数据扩展允许这些分配任务通过vSphere来管理。Taneja Group高级分析师Michael Matchett表示：“VMware让企业能够托管他们自己的大数据即服务。”

　　VMware通过其Serengeti项目这些功能，该项目的目标是优化Hadoop集群以在虚拟化基础设施上运行。Matchett表示，这是该项目迈出的非常重要的一步。在虚拟机上运行Hadoop节点，而不是在裸机上运行，带来了与虚拟化计算服务器相同的优势：更有效地使用硬件资源以及更灵活地管理系统。Matchett表示：“你可以在虚拟环境中托管Hadoop，因为这将让你能够混合其他工作负载，并且跨多个客户端利用基础设施的优势。”

　　其他公司也在试图虚拟化Hadoop集群。亚马逊云计算服务提供的Elastic Map Reduce(EMR)产品，基本上是类似Hadoop的公共云服务。而VMware主要是针对私有云和客户端部署。

　　为vSphere增加支持也可能预示着VMware的其他举措。例如，VMware可能扩展该平台以允许使用该公司即将推出的公共云产品(预计今年晚些时候推出)来轻松地迁移vSphere管理的Hadoop工作负载。其他公司(特别是微软)也将允许通过自己的管理软件来控制Hadoop发行版。

　　VMware推出的这些新功能是公开测试版的一部分，客户本周可以使用vSphere 5.1来报名参加公测，预计这些功能将在年底正式推出。除了宣布这个扩展外，VMware表示Serengeti项目支持Apache Hadoop的最新开源代码，包括新的YARN功能，Hadoop社区的一些人认为这个资源管理器可能带来更多基于Hadoop平台的新的应用程序。