gpt4 book ai didi

amazon-web-services - 如何创建分区具有不同列的 AWS Glue 表? ('HIVE_PARTITION_SCHEMA_MISMATCH' )

转载 作者:行者123 更新时间:2023-12-03 09:56:13 28 4
gpt4 key购买 nike

按此 AWS Forum Thread ,有谁知道如何使用 AWS Glue 创建一个 AWS Athena 表,该表的分区包含不同的架构(在这种情况下,表架构中的列的不同子集)?

目前,当我对这些数据运行爬虫然后在 Athena 中进行查询时,我收到错误 'HIVE_PARTITION_SCHEMA_MISMATCH'
我的用例是:

  • 分区代表天数
  • 文件代表事件
  • 每个事件都是单个 s3 文件中的一个 json blob
  • 事件包含列的子集(取决于事件类型)
  • 整个表的“架构”是所有事件类型的完整列集(这是由 Glue 爬虫正确组合在一起的)
  • 每个分区的“架构”是当天发生的事件类型的列子集(因此在 Glue 中,每个分区可能具有来自表架构的不同列子集)
  • 这种不一致导致了 Athena 中的错误,我认为

  • 如果我要手动编写模式,我可以做得很好,因为只有一个表模式,并且 JSON 文件中缺少的键将被视为空值。

    提前致谢!

    最佳答案

    我遇到了同样的问题,通过配置爬虫来更新预先存在的分区的表元数据来解决它:

    enter image description here

    关于amazon-web-services - 如何创建分区具有不同列的 AWS Glue 表? ('HIVE_PARTITION_SCHEMA_MISMATCH' ),我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/46241088/

    28 4 0
    Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
    广告合作:1813099741@qq.com 6ren.com