7月24日,主题为“芯动大数据 智领大机遇”的英特尔大数据论坛在北京召开。此次大会旨在帮助中国企业和合作伙伴响应大数据技术趋势,推动相关产品和解决方案创新,从海量、多样化数据中心中高效挖掘价值,分享了英特尔对于大数据概念及其应用价值的洞察、自身在大数据市场和创新体系中的定位、相关创新产品技术信息、对本地产业和市场发展予以支持的策略和已经获取的成功案例。
中国联通研究院副院长黄文良先生与大家分享了中国联通是如何利用英特尔Hadoop发行版解决业务发展中遇到的大数据问题的。
中国联通研究院副院长 黄文良
移动互联网时代来临,中国联通的用户流量远远超出与行业其他伙伴,流量大幅度增长以后,用户投诉增长非常快。原因主要是由于智能手机的到来,iPhone软件的下载需要大量的数据,同时半夜会又自动更新,可能产生很大的流量,而国内运营商现在都按照流量计费,用户对自己的流量去处不清晰就会进行投诉。
用户也是强烈要求运营商能提供明明白白的消费,他们并不重视产生总流量流量,告诉流量怎么产生则是他们迫切需要的。例如200M流量是因为更新QQ或者看了视频而产生的。如今北京、广东陆陆续续出现了一些官司,用户起诉到法院,说运营商欺诈消费,而联通却连什么设备用了流量的详细说明都拿不出来。这总是人们抨击的对象。
针对这一难题,联通去年开始和英特尔合作部署针对移动互联网用户的上网记录。在全国部署了一套上网记录查阅系统,比如通过网上营业厅查阅上网记录,如访问一个新浪首页,就会产生20多条的,这样的海量数据用传统的方式是很难解决的。联通和英特尔合作引入了Hadoop发行版技术来解决问题。在这之前联通试过其他的解决方案,但是发现当关系型数据库遇到百亿条的时候可能无能为力了,一查可能几个小时都出不来结果。
而现在Hadoop系统现在部署在北京,省里生成的数据5分钟一个文件往北京传,分布式的平台是在一点能够提供给全国所有的客服人员检索。现在检索速度基本上能到秒一级,输入中国联通任何一个城市的号码,它的上网记录可能一两秒就可以跳出来。
如今联通用了178台英特尔至强服务器的刀片服务器,每一台配了14TB的存储,还加上其他的Name节点,并且应用Hadoop发行版很好的解决了这一难题(也试过用Hadoop的开源版本,但是确实在性能上和英特尔的Hadoop发行版进行了比较,无论是监控能力还是稳定性都有很大区别。后来全面采用了英特尔的Hadoop发行版。)。
如今,只要用户输入号码,就能瞬间展示用户每天的流量。有详细的网站,哪个位置上网的,3G网络还是2G网络,起始时间等等全部都可以看到,所以用户再问50M的流量怎么产生的,联通可以告诉用户流量的星系花费情况。
总体来说,用了英特尔大数据的技术,给电信业带来了很大的机遇,现在基于这些数据电信提供商可以作出更多更丰富的应用,在未来移动互联网的健康良好的发展也奠定了很好基础。