gpt4 book ai didi

oracle - 将数据从 oracle 移动到 HDFS,处理并从 HDFS 移动到 Teradata

转载 作者:可可西里 更新时间:2023-11-01 14:15:06 26 4
gpt4 key购买 nike

我的要求是

  1. Move data from Oracle to HDFS
  2. Process the data on HDFS
  3. Move processed data to Teradata.

还需要每 15 分钟执行一次整个处理。源数据量可能接近 50 GB,处理后的数据也可能相同。

在网上查了很多,发现

  1. ORAOOP to move data from Oracle to HDFS (Have the code withing the shell script and schedule it to run at the required interval).
  2. Do large scale processing either by Custom MapReduce or Hive or PIG.
  3. SQOOP - Teradata Connector to move data from HDFS to Teradata (again have a shell script with the code and then schedule it).

这首先是正确的选择吗?这在要求的时间段内是否可行(请注意,这不是每日批处理左右)?

我发现的其他选项如下

  1. STORM (for real time data processing). But i am not able to find the oracle Spout or Teradata bolt out of the box.
  2. Any open source ETL tools like Talend or Pentaho.

请分享您对这些选项以及任何其他可能性的看法。

最佳答案

看来您有几个问题,所以让我们试着分解一下。

在 HDFS 中导入

您似乎在寻找Sqoop . Sqoop 是一种工具,可让您轻松地将数据传入/传出 HDFS,并且可以连接到各种数据库,包括 native 的 Oracle。 Sqoop 与 Oracle JDBC 瘦驱动程序兼容。以下是从 Oracle 转移到 HDFS 的方法:

sqoop import --connect jdbc:oracle:thin@myhost:1521/db --username xxx --password yyy --table tbl --target-dir /path/to/dir

更多信息:herehere .请注意,您还可以使用 Sqoop 直接导入到 Hive 表中,这样可以方便您进行分析。

处理

如您所述,由于您的数据最初是关系数据,因此使用 Hive 进行分析是个好主意,因为您可能更熟悉类似 SQL 的语法。 Pig 是更纯粹的关系代数,语法不像 SQL,它更像是一个偏好问题,但两种方法都应该可以正常工作。

由于您可以直接使用 Sqoop 将数据导入 Hive,因此您的数据应该在导入后直接准备好进行处理。

在 Hive 中,您可以运行查询并告诉它将结果写入 HDFS:

hive -e "insert overwrite directory '/path/to/output' select * from mytable ..."

导出到 TeraData

Cloudera 去年发布了用于 Sqoop 的 Teradata 连接器,如所述 here ,因此您应该看一看,因为这看起来正是您想要的。以下是您的操作方法:

sqoop export --connect jdbc:teradata://localhost/DATABASE=MY_BASE --username sqooptest --password xxxxx --table MY_DATA --export-dir /path/to/hive/output

整个事情在任何时间段内都是绝对可行的,最后重要的是集群的大小,如果你想要它快速,然后根据需要扩展你的集群。 Hive 和 Sqoop 的好处是处理将分布在您的集群中,因此您可以完全控制计划。

关于oracle - 将数据从 oracle 移动到 HDFS,处理并从 HDFS 移动到 Teradata,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/16890053/

26 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com