gpt4 book ai didi

amazon-athena - HIVE_CANNOT_OPEN_SPLIT : Schema mismatch when querying parquet files from Athena

转载 作者:行者123 更新时间:2023-12-02 02:44:38 24 4
gpt4 key购买 nike

从 Athena 查询 Parquet 数据时出现架构不匹配错误。

错误是:

HIVE_CANNOT_OPEN_SPLIT: Error opening Hive split s3://datalake/googleanalytics/version=0/eventDate=2017-06-11/part-00001-9c9312f7-f9a5-47c3-987e-9348b78aaebc-c000.snappy.parquet (offset=0, length=48653579): Schema mismatch, metastore schema for row column totals has 13 fields but parquet schema has 12 fields

在 AWS Glue Crawler 中,我尝试启用 使用表中的元数据更新所有新的和现有的分区 我认为这可以解决这个问题,但是我仍然收到上述错误。
我这样做是因为类似的问题:
How to create AWS Glue table where partitions have different columns? ('HIVE_PARTITION_SCHEMA_MISMATCH')

总计列的表架构是:
struct<visits:bigint,hits:bigint,pageviews:bigint,timeOnSite:bigint,bounces:bigint,transactions:bigint,transactionRevenue:bigint,newVisits:bigint,screenviews:bigint,uniqueScreenviews:bigint,timeOnScreen:bigint,totalTransactionRevenue:bigint,sessionQualityDim:bigint>

分区 eventDate=2017-06-11 的 Parquet 文件缺少最后一个字段“sessionQualityDim”。

最佳答案

您有具有两种不同架构的 Parquet 文件,并且 Athena 表架构与较新的架构相匹配。您可以执行以下操作之一:

1) 在 athena 中创建两个不同的表,一个指向 2017 年之前的数据,另一个指向 2017 年之后的数据。

2) 如果旧数据对当前用例不再有效,那么您可以简单地存档该数据并从当前表中删除 2017 年及更旧的分区。

关于amazon-athena - HIVE_CANNOT_OPEN_SPLIT : Schema mismatch when querying parquet files from Athena,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/56241893/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com