gpt4 book ai didi

apache-spark - 使用 Spark SQL 查询 Hive 分区中子目录中的数据

转载 作者:行者123 更新时间:2023-12-04 17:53:41 27 4
gpt4 key购买 nike

如何强制 spark sql 从子目录中递归获取以 parquet 格式存储的数据?在 Hive 中,我可以通过设置一些 Hive 配置来实现这一点。

set hive.input.dir.recursive=true;
set hive.mapred.supports.subdirectories=true;
set hive.supports.subdirectories=true;
set mapred.input.dir.recursive=true;

我尝试通过 spark sql 查询设置这些配置,但与获得预期结果的配置单元相比,我始终获得 0 条记录。我还将这些 confs 放在 hive-site.xml 文件中,但没有任何改变。我该如何处理这个问题?

星火版本:2.1.0我在 emr-5.3.1 上使用了 Hive 2.1.1

顺便说一下,这个问题是在使用 parquet 文件时出现的,而使用 JSON 时它工作正常。

最佳答案

这个问题的一个解决方案是通过使用 hive 上下文强制 spark 到 Hive Parquet reader,这将使 spark 能够递归读取文件。

关于apache-spark - 使用 Spark SQL 查询 Hive 分区中子目录中的数据,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/42249888/

27 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com