amazon-athena - 如何解决这个 HIVE_PARTITION_SCHEMA

amazon-athena - 如何解决这个 HIVE_PARTITION_SCHEMA_MISMATCH？

转载作者：行者123 更新时间：2023-12-03 18:05:29

30

4

我在 S3 上对 CSV 文件中的数据进行了分区:

s3://bucket/dataset/p=1/*.csv(分区#1)

...

s3://bucket/dataset/p=100/*.csv(分区#100)

我在 s3://bucket/dataset/上运行一个分类器，结果看起来非常有希望，因为它检测到 150 列 (c1,...,c150) 并分配了各种数据类型。

在 Athena 中加载结果表并查询( select * from dataset limit 10 )它会产生错误消息:

HIVE_PARTITION_SCHEMA_MISMATCH: There is a mismatch between the table and partition schemas. The types are incompatible and cannot be coerced. The column 'c100' in table 'tests.dataset' is declared as type 'string', but partition 'AANtbd7L1ajIwMTkwOQ' declared column 'c100' as type 'boolean'.

首先，我不知道如何使用“AANtbd7L1ajIwMTkwOQ”……但我可以从 Glue 中的分区列表中看出，有些分区将 c100 归类为字符串，而另一些则归类为 bool 值。而表模式将其列为字符串。

这也意味着，如果我将查询限制为将 c100 分类为与表模式一致的字符串的分区，那么该查询将起作用。如果我使用将 c100 分类为 bool 值的分区，则查询将失败并显示上述错误消息。

现在查看一些 CSV 列 c100 似乎包含三个不同的值:

真

假

[空](如...、、...)

可能某些行包含拼写错误(可能)，因此某些分区被归类为字符串 - 但这只是一个理论，并且由于文件的数量和大小而难以验证。

我也试过 MSCK REPAIR TABLE dataset无济于事。

有没有快速解决方案？也许强制所有分区使用字符串？如果我查看分区列表，则有一个已停用的“编辑架构”按钮。

或者我是否必须编写一个 Glue 作业来检查和丢弃或修复每一行？

最佳答案

如果您使用爬虫，您应该选择以下选项:

Update all new and existing partitions with metadata from the table

您也可以在创建表时执行此操作。查询 https://docs.aws.amazon.com/glue/latest/dg/crawler-configuration.html#crawler-schema-changes-prevent更多细节。

这应该可以解决问题。如果没有，请检查 https://github.com/awsdocs/amazon-athena-user-guide/blob/master/doc_source/glue-best-practices.md#schema-syncing 中的其他选项

要了解雅典娜中的问题，请查看 https://docs.aws.amazon.com/athena/latest/ug/updates-and-partitions.html

关于amazon-athena - 如何解决这个 HIVE_PARTITION_SCHEMA_MISMATCH？，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/57890280/

30

4

0

文章推荐： python - 在 gitlab CI 期间激活 conda 环境

文章推荐： openerp - Odoo 限制对数据库管理器页面的访问

文章推荐： process - Lua:如何检查进程是否正在运行

文章推荐： Blazor(服务器端)在同级组件之间进行通信

amazon-cloudsearch - Amazon CloudSearch 和 Amazon Kendra
我想知道 Amazon CloudSearch 和 Kendra 之间的主要区别是什么？为什么同一家公司的产品有两种不同的工具相互竞争？两者看起来都一样，我不确定功能有何不同。它是如何相互区分的。 A
amazon-simpledb - Amazon SimpleDB 与 Amazon RDS
我在一家小型电子商务网站工作，我们希望迁移到所有 Amazon 托管服务，但我不确定 RDS 和 SimpleDB 的确切区别。 RDS可以用MySQL，SimpleDB不行吗？最佳答案 RDS 基
amazon-ec2 - Amazon EC2 与 Amazon EMR
关闭。这个问题是opinion-based .它目前不接受答案。想改善这个问题吗？更新问题，以便可以通过 editing this post 用事实和引文回答问题. 7年前关闭。 Improve t
amazon-ec2 - Amazon ELB 如何将请求分发到不同实例类型的 Amazon EC2 实例？
任何人都知道如何 ELB如果我注册多个 EC2 将分发请求不同大小的实例。说一 m1.medium , 一 m1.large和一个 m1.xlarge . 如果我注册EC2会不会不一样相同大小的实例？
amazon-web-services - 用于事件驱动交互的 Amazon AppFlow 与 Amazon EventBridge
Amazon EventBridge 使开发人员能够将第 3 方事件驱动的应用程序与 Amazon 服务连接起来。 Amazon AppFlow 还提供与第 3 方应用程序的事件驱动集成。对于事件驱
amazon-web-services - Amazon Pinpoint 与 Amazon SES/SMS
我想通过电子邮件或短信向特定用户(只有一个)发送验证码。我已经通过 Amazon SES 成功地做到了。但我没有尝试通过Amazon SMS然而。我发现自己陷入了调查的兔子洞AWS Pinpoint
amazon-web-services - Amazon S3 和 Amazon EBS 之间的主要区别是什么
关闭。这个问题不满足Stack Overflow guidelines .它目前不接受答案。想改善这个问题吗？更新问题，使其成为 on-topic对于堆栈溢出。 6年前关闭。 Improve thi
amazon-web-services - Amazon Glacier 可以镜像 Amazon S3 存储桶吗？
我想使用 Amazon Glacier 镜像 S3 存储桶。 Glacier FAQ状态: Amazon S3 now provides a new storage option that enabl
amazon-s3 - 将 Amazon S3 与 Amazon RDS 结合使用
我正在尝试在 Amazon RDS 上托管数据库，而数据库将存储信息的实际内容(视频)将托管在 Amazon S3 上。我对这个过程有一些疑问，希望有人能帮助我。 Amazon RDS 上托管的数
amazon-web-services - Amazon ECS 和 Amazon EC2 有什么区别？
我刚刚开始使用 AWS EC2。我知道 EC2 就像一台远程计算机，我几乎可以在其中完成我想做的所有事情。后来我知道了ECS。我知道它使用 Docker，但我对这两者之间的关系感到困惑。 ECS 只是
amazon-web-services - Amazon SNS 和 Amazon SQS 有什么区别？
什么时候我会使用 SNS 和 SQS，为什么它们总是耦合在一起？最佳答案 SNS是一个分布式发布-订阅系统。当发布者将消息发送到 SNS 时，消息就会被推送给订阅者。 SQS是分布式排队系统。消息不
amazon-web-services - Amazon S3 和 Amazon EC2 实例有什么区别？
已关闭。此问题不符合Stack Overflow guidelines 。目前不接受答案。这个问题似乎不是关于 a specific programming problem, a software
amazon-s3 - 是否可以在 Amazon S3 用户之间共享 Amazon S3 存储桶？
已关闭。这个问题是 off-topic 。目前不接受答案。想要改进这个问题吗？ Update the question所以它是on-topic用于堆栈溢出。已关闭10 年前。 Improve th
amazon-ec2 - 当我有多个服务器时，我应该在 Amazon EC2 中使用 Amazon VPC
我计划在 amazon EC2 中拥有一个多服务器架构，其中服务器需要相互通信。这些服务器需要位于不同的亚马逊地区(不同的数据中心)。我可以只使用亚马逊ec2的内部网络吗？有哪些安全问题？我是否应该在
amazon-web-services - 允许从 Amazon EC2 实例到 Amazon S3 存储桶的跨账户访问
我在帐户 B 中有 S3 存储桶“跨存储桶”。现在我希望帐户 A 中存在的 EC2 访问帐户 B 中的此存储桶“跨存储桶”。我需要使用 IAM 角色来实现此目的，因为我们不允许创建用户。我已使用以
amazon-s3 - 单页应用程序 + Amazon S3 + Amazon CloudFront + Prerender.io - 如何设置？
我有使用 Backbone.js 构建的单页应用程序。我在 Amazon S3 上托管应用程序(应用程序仅包含静态文件)。我使用 CloudFront 作为 Bucket CDN。应用程序通过
amazon-web-services - 您可以连接到 Amazon 外部的 Amazon ElastiСache Redis 吗？
我可以连接到 ElastiCache来自 EC2 实例的 VPC 中的 Redis 实例。但我想知道是否有办法连接到 Amazon EC2 实例之外的 ElastiCache Redis 节点，例如
amazon-ec2 - Amazon EC2微型实例无响应
我有几个微实例可以正常工作数周。两者都在运行WordPress博客。在过去的24小时内，其中一个已经停止。即使重新启动，我也无法插入。另一个实例工作正常。 ssh: connect to host e
amazon-redshift - Amazon Redshift中的generate_series函数
我尝试了以下方法: SELECT * FROM generate_series(2,4); generate_series ----------------- 2
amazon-s3 - Amazon S3将目录复制到另一个目录
如何使用PHP API将包含子文件夹和文件的文件夹复制/复制到S3存储桶中的另一个目录中？ $s3->copy_object仅复制文件夹，而不复制其中的文件和子文件夹。我是否必须使用$s3->lis

首页

博学

6Ren·AI

商城

amazon-athena - 如何解决这个 HIVE_PARTITION_SCHEMA_MISMATCH？