gpt4 book ai didi

hadoop - 从 RDBMS 导出为 Hadoop 兼容格式

转载 作者:可可西里 更新时间:2023-11-01 16:44:15 25 4
gpt4 key购买 nike

我需要在不连接两个系统的情况下将大量数据从 Oracle 数据库移动到 Hadoop。是否可以通过 Sqoop 将 Oracle 中的数据直接导出到本地文件系统,而无需导入到 HDFS。我想导出到 ORC,然后通过外部磁盘将文件移动到 Hadoop 集群。

最佳答案

您不能在您的情况下使用 SQOOP。 SQOOP(“SQL to Hadoop”)在 hadoop 中运行,默认情况下使用 JDBC 连接数据库(正如我解释的 in this answer ,您可以使用 --direct 选项更改它)。如果hadoop节点无法连接到DB服务器,则无法使用。

ORC 是 Hive 使用的一种非常特殊的格式,如果可能的话,您将需要了解如何使用 Hive 库在 hadoop 集群之外创建 ORC 文件。

根据您的限制,我建议使用 DB 的转储功能将 DB 导出到 CSV 文件中,压缩该文件,然后将其复制到 HDFS。

如果您计划使用 Hive,那么您可以LOAD文本文件到配置为使用 ORC 存储数据的表中。

关于hadoop - 从 RDBMS 导出为 Hadoop 兼容格式,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/38001106/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com