服务器
    作者:赵为民

    尽信书不如无书 大数据分析要去伪存真

         [ 中关村在线 原创 ] 暂无评论

        大数据行业发展速度令人瞠目结舌,大数据分析为企业带来巨大价值,已经成为企业决策新助手。但中国有句古话“尽信书不如无书”,其实大数据分析没有你想象的那么完美。这主要是由于大数据中并不是所有的数据对用户都有价值,一些垃圾信息甚至对数据价值带来深深的伤害,如何对收集的数据进行筛选、去伪存真,才是大数据真正实现价值的关键。

    尽信书不如无书 大数据分析要去伪存真

        何为垃圾信息?

        什么是垃圾信息,简单的说,就是那些混在大量有用的信息中的无用信息,有害信息,以及对大数据分析结果带来影响的信息。

        但垃圾信息并不是绝对的,可能这种信息对于用户甲是无用的,对无分析结果是有害的,但是对于用户乙来说,可能就是有用的信息。所以不同行业的用户要学会区分自己数据中的信息哪些是垃圾信息,是无用的。

        常见的垃圾信息:

        在我们的日常生活中,各种垃圾信息可以说是无处不在。例如,当下网络上拥有一大批的网络水军,这些人产生了大量的垃圾信息,对大数据分析结果造成恶劣的影响。在去年上映的《X的盛宴》,宣传方雇佣了大批水军进行刷分,造成了评分很高,但是观后的口碑很差,最后主办方不得不出面道歉息事宁人。这些网络水军的数据就是垃圾信息。

    尽信书不如无书 大数据分析要去伪存真
    网络水军(图片来自xinmin)

        当然类似的例子还很多,在前几年淘宝开店火爆的时候,有专门为卖家刷钻的工具,这样的结果造成了很多店家虽然钻的级别很高,但是产品以及售后服务名不副实。微博用户刷粉盛行一时,很多网络大V的真实粉丝很少;论坛刷回复贴,营造论坛很火的局面;电商网站促销期间刷交易单数。等等,这些垃圾信息都深深伤害了数据的价值。

        大数据市场当前情况:

        不可否认的是大数据拥有巨大的价值,但是就目前情况看来,大数据更像是镜中花水中月,看似美好,实则言过其实。在浩如烟海的数据中心去发掘对用户有价值的数据,就好比在垃圾场捡拾宝贝一样,就好比在沙漠中寻找宝石一样。

        那么,如何从大量数据中心获得对用户有价值的信息呢?下面让我们看一下当前人们是如何剔除垃圾信息,寻找数据价值。

    提示:支持键盘“← →”键翻页
    本文导航

    关注排行榜

    产品品牌

    文章推荐

    互动沙龙

    相关内容 网友评论 返回首页
    专家咨询