热点推荐
ZOL首页 > 服务器 > 产业 > Google每天需要处理约20000TB的数据

Google每天需要处理约20000TB的数据


cnBeta 【转载】 2008年11月24日 09:32 评论

近期焦点:

专家称:开心网成新网络成瘾的隐患

Google每天需要处理约20000TB的数据

服务器版Core i7性能比AMD上海更强大

分析师称:IBM 最可能出手收购Sun微系统

谷歌允许使用者编辑搜索引擎所得结果

HPC成战场 微软力争市场份额终入10强

IT市场表现最差10位CEO 杨致远高居榜首 

  Google 热衷于处理全球的信息,每天,他们花费大量时间探索更好的信息整理技术,他们目前使用的技术为 MapReduce,这是一种可以对数据进行并发处理的软件架构。鉴于其简单性与处理大规模数据的能力,MapReduce 是 Google 日常数据处理的完美技术方案。


Google每天需要处理约20000TB的数据
Google数据整理图

  Google数据整理实验一直以每 TB 数据表现为基准。这些标准话实验帮助 Google 理解和对比不同技术的优秀劣,并获得经验和教训,以改进下一代数据处理技术。

  目前,Google 的每 TB 数据处理能力为,在1000台计算机中处理 1TB 数据的时间为68秒(使用 Google File System 将 1TB 数据保存在100亿个 100 字节的非压缩文本文件中),以前的表现为 910 台电脑 209秒。

  但 Google 要处理的数据远超过 TB 级,因此,Google 做了 PB 级数据处理实验。1PB 数据是 1TB 的1000倍,或者,形象一点说,1PB 数据相当于 2008 年5月,美国国会图书馆存档的 Web 数据的 12 倍。2008年1月的统计结果显示,Google 每天处理的数据为平均为 20PB,相当于 20000TB。在 4000 台计算机中处理 1PB 数据花费6小时领2分钟。

  有一个有趣的问题,就是,如何保存这么多数据。Google 将这些数据保存在 48000 个硬盘中(每个只利用了部分空间),每次进行数据整理,至少有一个硬盘坏掉(鉴于处理的时长,硬盘的数目和硬盘本身的寿命,这并不奇怪),因此,为了保证数据安全,Google 将每份数据都在不同的硬盘上写三份。

相关搜索:服务器 
给文章打分 5分为满分(共0人参与) 查看排行>>
频道热词:LED照明  工作站  云计算  
视觉焦点
TOP10周热门服务器排行榜
  • 热门
  • 新品
  • 系列
查看完整榜单>>