gpt4 book ai didi

apache-spark - 如何在 DataFrame Spark 1.6 中加载特定的 Hive 分区?

转载 作者:行者123 更新时间:2023-12-04 05:12:52 25 4
gpt4 key购买 nike

根据官方 doc 从 Spark 1.6 开始我们无法向 DataFrame 添加特定的 hive 分区

直到 Spark 1.5 以下用于工作,数据框将具有实体列和数据,如下所示:

DataFrame df = hiveContext.read().format("orc").load("path/to/table/entity=xyz")

但是,这在 Spark 1.6 中不起作用。

如果我提供如下所示的基本路径,它不包含我在 DataFrame 中想要的实体列,如下所示 -
DataFrame df = hiveContext.read().format("orc").load("path/to/table/") 

如何在数据帧中加载特定的 hive 分区?删除此功能的驱动因素是什么?

我相信它是有效的。在 Spark 1.6 中是否有替代方案可以实现这一目标?

根据我的理解,Spark 1.6 加载所有分区,如果我过滤特定分区效率不高,它会命中内存并抛出 GC(垃圾收集)错误,因为数千个分区被加载到内存中而不是特定分区。

最佳答案

要使用 Spark 1.6 在 DataFrame 中添加特定分区,我们必须执行以下第一组 basePath然后给出需要加载的分区路径

DataFrame df = hiveContext.read().format("orc").
option("basePath", "path/to/table/").
load("path/to/table/entity=xyz")

所以上面的代码将只加载 DataFrame 中的特定分区。

关于apache-spark - 如何在 DataFrame Spark 1.6 中加载特定的 Hive 分区?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/34659184/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com