gpt4 book ai didi

hadoop - 如何使用hadoop解决以下用例?

转载 作者:行者123 更新时间:2023-12-02 22:09:18 24 4
gpt4 key购买 nike

Migrating the data from Legacy database [~50 TB] to New Database.
Migrating data from staging database[ 5GB per 1 hr] to New Database.

Before storing into new database we are doing data analytic(validating, removing unwanted data and , storing only valid data)

请使用Hadoop生态系统提供架构。

最佳答案

我想您可以使用Cloudera Manager和CDH(hadoop)。

ETL:Sqoop 2
SQL:Hive和Impala
数据挖掘:Spark。

Sqoop可以轻松地将旧数据库中的数据加载到hadoop(简单命令)

Sqoop import --connect [jdbc:oracle:thin:@//ip:port/servicename] --username xxx --password xxx --table xxx --hive-table

之后,您可以使用HUE(Web界面编写SQL,元数据,工作流)来查询数据。

Impala是Cloudera的MPP数据库。

这很容易扩展。

首先,为了进行概念验证,您可以从4个节点启动集群:

主节点(* 1):64G内存
从节点(* 3):32G内存

将少量数据加载到数据湖中。
完成后,您可以横向扩展并将更多节点添加到数据湖。

关于hadoop - 如何使用hadoop解决以下用例?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/37018255/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com