gpt4 book ai didi

hadoop - 在 Hive 中将分区数据插入外部表

转载 作者:可可西里 更新时间:2023-11-01 15:25:10 24 4
gpt4 key购买 nike

关于将数据插入外部表,我几乎不需要澄清。

我创建了一个外部 parquet 表,该表按指向 hadoop 位置的周进行分区,之后我将数据(一个 .csv 文件)移动到该位置。

我的疑问是因为表是按周分区的,即使我只是将文件移动到那个目录,配置单元也不会读取并且我必须使用插入命令,相比之下当我们有一个未分区的配置单元表时,这将直接从该 hadoop 路径读取

最佳答案

您需要考虑 CSV 中包含哪些数据。例如,如果您按年对时间数据进行分区,则不会将包含多个年份值的 CSV 复制到单个分区中。您需要拆分数据集。

even if I just move the file to that directory , hive would not read and I have to use insert command

正确。特别是因为它是一个试图读取 CSV 的 parquet serde。

澄清一下,如果将 CSV 放在以文本形式存储的表中,Hive 将读取 CSV。

您需要一个单独的表,您可以在其中读取文本文件,然后插入到另一个表中,同时转换文件格式

关于hadoop - 在 Hive 中将分区数据插入外部表,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/48556341/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com