gpt4 book ai didi

csv - LOAD DATA INPATH 将相同的基于 CSV 的数据加载到两个不同的外部 Hive 表中

转载 作者:可可西里 更新时间:2023-11-01 15:04:24 25 4
gpt4 key购买 nike

我有两个 CSV 文件,已上传到 HDInsight 中的 Azure Blob 存储。我可以毫无问题地将这两个文件上传到集群。然后我创建两个 Hive 表...

CREATE EXTERNAL TABLE IF NOT EXISTS hive_table1(id int, age string, date string...) 
ROW FORMAT DELIMITED FIELDS TERMINATED BY '\;' STORED AS TEXTFILE LOCATION '/user/hive/warehouse'

类似的语法适用于其他表。

现在我想将第一个 CSV 文件加载到第一个表中,将第二个 CSV 文件加载到第二个表中(导致不对应的列)。

我用...

LOAD DATA INPATH '/file/file1.csv' OVERWRITE INTO TABLE hive_table1;

...并且能够将 CSV 文件数据加载到第一个表中。 但是...,不仅第一个数据集加载到第一个 Hive 表中,它将完全相同的文件数据加载到第二个中> hive 表。

显然,我希望将第一个数据集加载到一个表中,并将第二个不同数据集加载到另一个表中.

任何人都可以帮助指出错误或提供可能的解决方案吗?

提前致谢。

最佳答案

看起来您只需要为第二个表指定不同的“位置”。当您执行“加载数据”时,Hive 实际上是将数据复制到该路径中。如果两个表具有相同的“LOCATION”,则它们将共享相同的数据。

关于csv - LOAD DATA INPATH 将相同的基于 CSV 的数据加载到两个不同的外部 Hive 表中,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/41130404/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com