gpt4 book ai didi

apache-spark - SparkSQL - 一些分区出现在 HiveServer2 但不是 SparkSQL

转载 作者:可可西里 更新时间:2023-11-01 16:36:39 26 4
gpt4 key购买 nike

Hive 外部表指向 S3 上的文件,ddl 包括按 eod 子句分区。一个文件夹下有 5 个子文件夹,每个子文件夹下面都有一个文件,用于不同的 partition_date。即

eod=20180602/fileA
eod=20180603/fileA
eod=20180604/fileA
eod=20180605/fileA
eod=20180606/fileA

Msck修复表运行在HiveServer2上

从 HiveServer2(端口 10000)上的 tbl 中选择不同的 part_dt 返回所有 5 个日期

但是,从 SparkThriftServer(即 SparkSQL,端口 10015)上的 tbl 中选择不同的 part_dt 仅返回前 2 个日期。

这怎么可能?

即使在 SparkThriftServer 上运行 msck repair 时,差异仍然存在。

文件架构在所有日期都是相同的。 (即每个文件都有相同数量/类型的列)

最佳答案

已解决,这 8 个受影响的表以前缓存在 sparksql 中(即 cache table <table> )。一旦我跑了 uncache table <table>所有分区再次排列!

关于apache-spark - SparkSQL - 一些分区出现在 HiveServer2 但不是 SparkSQL,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/51134624/

26 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com