gpt4 book ai didi

hadoop - 从头开始构建Data Lake

转载 作者:行者123 更新时间:2023-12-02 20:27:46 24 4
gpt4 key购买 nike

我正在尝试从头开始构建“数据湖”。我了解数据湖的工作原理和目的。遍布互联网。但是,当出现问题时,如何从头开始构建一个问题就没有了。我想了解是否:

Data warehouse + Hadoop = Data Lake



我知道如何运行Hadoop并将数据引入Hadoop。
我想在内部数据湖上构建一个样本来演示我的经理。任何帮助表示赞赏。

最佳答案

您必须具有结构化和非结构化数据,才能将Hadoop集群变成数据湖。

因此,您必须具有一些ETL管道来获取非结构化数据并将其转换为结构化数据。产品评论或类似的评论会提供您的非结构化数据。将其转换为Hive可用的东西(例如)将为您提供结构化数据。

我会用https://opendata.stackexchange.com/来获取您的数据,而用google Hadoop ETL来了解如何清除数据的想法。由您决定如何编写管道(Spark或MapReduce)。

关于hadoop - 从头开始构建Data Lake,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/54897265/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com