很多企业IT应用虚拟化程度仅有20%-30%。但随着云计算的逐步成熟与落地,云数据中心也越来越被企业接受。当然,这种虚拟化在云数据中心中的应用也就更加广泛了。
了解大数据的读者都知道,Hadoop是所有大数据解决方案中最具成长性的平台,它通过集群搭建起的高性能计算和存储平台,利用分布式架构对海量数据(包括结构和非结构数据)进行分析和处理。在这种情况下,也许很多人会误以为虚拟化运行在SAN上,而Hadoop却在本地硬盘上运行,从而主观认为虚拟化不适合大数据平台。甚至有人会认为,虚拟化会给IT系统带来更多资源开销,降低Hadoop性能。
其实,大数据平台下的Hadoop,更多的是基于集群版(包括开源和英特尔发行版),而不是单机版。通过虚拟存储架构下的共享存储(SAN或者NAS),可实现更简便高效的部署,并且实现集群的自动负载均衡。
Hadoop集群框架简图
另一方面,并不是所有的企业都有足够的精力和能力去应对部署Hadoop带来的挑战(部署门槛和系统调优门槛),而且Name Node和Job tracker存在单点失效问题,Hive、HCatalog等非Hadoop核心模块也没有双机集群高可用性的保障,专有的Hadoop集群CPU利用率低,Hadoop和非Hadoop负载不能直接共享资源,等等。这一系列的问题,都给Hadoop的使用带来了诸多不便。
在这种情况下,引入虚拟化解决方案就成为了破解这些难题的“救命稻草”了。服务器虚拟化、甚至基于计算、网络、存储各个模块的全面虚拟化,有助于降低成本和提升集群系统的可用性和可靠性,避免Hadoop集群带来的昂贵成本负担,使得广大中型企业也可以实现大数据的分析和应用,而且也可以帮助提升大数据的服务价值。
另外一种情况是,基础设施的全面虚拟化,还可以顺应大数据几何级数增长的发展态势,从而从一开始就紧随业务/大数据价值挖掘的需求不断推进,提升大数据价值内涵。
编后语:
虚拟化和云计算,将为大数据价值的挖掘提供更富有灵活扩展、高效利用的技术支持。虽然大数据需要有更多的新技术来帮助实现,但早已发展成熟的虚拟化以及当下流行应用的云计算,将有助于简化大数据价值的挖掘和服务的提供,从而实现大数据的更快部署实施和惠及更多地区、行业用户的应用服务。