gpt4 book ai didi

google-cloud-platform - GCP dataproc 上的外部 Hive 表未从 GCP 存储桶中读取数据

转载 作者:行者123 更新时间:2023-12-04 15:00:55 27 4
gpt4 key购买 nike

我在 GCP 存储桶中有以下格式的数据:

gs://bucket/my_table/data_date=2021-03-26/000
gs://bucket/my_table/data_date=2021-03-26/001
gs://bucket/my_table/data_date=2021-03-27/000
gs://bucket/my_table/data_date=2021-03-27/001

我正在使用以下数据创建外部表:

CREATE EXTERNAL TABLE `my_db.my_table`(
  `col1` string,
  `col2` string,
PARTITIONED BY (
  `data_date` string)
ROW FORMAT SERDE
  'org.apache.hadoop.hive.serde2.lazy.LazySimpleSerDe'
WITH SERDEPROPERTIES (
  'field.delim'='\t',
  'serialization.format'='\t')
STORED AS INPUTFORMAT
  'org.apache.hadoop.mapred.TextInputFormat'
OUTPUTFORMAT
  'org.apache.hadoop.hive.ql.io.HiveIgnoreKeyTextOutputFormat'
LOCATION
  'gs://bucket/my_table/'

创建表时没有错误:

hive > CREATE EXTENAL TABLE ...
Time Taken: 0.012 seconds
OK

但是,我看不到任何数据。即使存储桶中有数据文件,以下命令也不会返回任何内容。

hive> show partitions my_db.my_table;
Ok
Time taken: 0.191 seconds

hive> select * from my_db.my_table;
Ok
Time taken: 0.191 seconds

我也没有看到任何错误。我已经验证并且我确实拥有存储桶的读取权限。

最佳答案

您需要修复表以检索外部表中的所有现有分区。修复命令恢复所有分区并更新 Hive 元存储。

MSCK 修复表 TABLE_NAME

您可以阅读有关修复命令的更多信息 here .

关于google-cloud-platform - GCP dataproc 上的外部 Hive 表未从 GCP 存储桶中读取数据,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/66966055/

27 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com