服务器
    作者:贾凯强

    如何保证Hadoop数据湖不变成“数据洪水”

         [ 中关村在线 原创 ] 暂无评论

      抗洪还得靠管理

      那么数据湖要如何才能避免成为数据洪的悲剧呢?首先应该从根本上改变传统对数据湖的看法。把数据湖当作一个整体库存来管理是存在问题的,对于管理人员来讲,基于数据类型需要把数据湖分成一个个的区,分别处理管理。

    如何保证Hadoop数据湖不变成“数据洪水”
    基于Hadoop的数据湖需要分类

      基于Hadoop的数据湖的区域划分归类对其而言十分重要。管理者需要对其需要提取的数据进行原始数据的保留,并且对其进行元数据标记,标明数据源、数据类型等。当被提取的数据处理完毕之后要对其统一规划并进行后续处理。

      如果用户需要选择一些特定应用程序的数据,那么可以通过收集、转换,将来自不同数据源的数据全部带走并进行处理。最后,在处理工作完成后可以通过数据轨迹、处理日志等工具对处理过程进行审核,保障数据处理的完成度。

    如何保证Hadoop数据湖不变成“数据洪水”
    数据分类管理

      这些问题说起来简单,但是做起来却是一件相当麻烦的事情。这要求企业拥有一套十分成熟的数据提取工具,用于数据转化、分类、标记以及其他任务。

      而且不仅仅是企业关注这一问题,在Apache的Hadoop社区也有好多团队在致力于开发此类工具。事实上,此类工具更趋向于数据管理专业,这些对于企业来讲并不熟悉。而好消息是,一些相关的生态链已经在Hadoop领域开始形成,相信解决数据湖管理难题的工具将在不久后出现。

    提示:支持键盘“← →”键翻页
    本文导航
    • 第2页:数据湖管理需更好的工具

    关注排行榜

    产品品牌

    文章推荐

    互动沙龙

    相关内容 网友评论 返回首页
    专家咨询