gpt4 book ai didi

hadoop - Spark SQL 不返回 HDP 上 HIVE 事务表的记录

转载 作者:可可西里 更新时间:2023-11-01 16:06:45 27 4
gpt4 key购买 nike

我在 HDP 设置上遇到了这个问题,事务表只需要一次压缩就可以使用 Spark SQL 获取记录。另一方面,Apache 设置甚至不需要压缩一次。

可能是压缩后在元存储上触发了某些东西,Spark SQL 开始识别增量文件。

如果需要其他详细信息来找出根本原因,请告诉我。

试试这个,

查看完整场景:

hive> create table default.foo(id int) clustered by (id) into 2 buckets STORED AS ORC TBLPROPERTIES ('transactional'='true');
hive> insert into default.foo values(10);

scala> sqlContext.table("default.foo").count // Gives 0, which is wrong because data is still in delta files

#Now run major compaction:

hive> ALTER TABLE default.foo COMPACT 'MAJOR';

scala> sqlContext.table("default.foo").count // Gives 1

hive> insert into foo values(20);

scala> sqlContext.table("default.foo").count // Gives 2 , no compaction required.

最佳答案

Spark 不支持 hive 的跨国表的任何特性。

请检查:https://issues.apache.org/jira/browse/SPARK-15348

关于hadoop - Spark SQL 不返回 HDP 上 HIVE 事务表的记录,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/35955666/

27 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com