apache-spark - 如何在 DataFrame Spark 1.6 中加载特定的 Hive 分区？-6ren

apache-spark - 如何在 DataFrame Spark 1.6 中加载特定的 Hive 分区？

转载作者：行者123 更新时间：2023-12-04 05:12:52

根据官方 doc 从 Spark 1.6 开始我们无法向 DataFrame 添加特定的 hive 分区

直到 Spark 1.5 以下用于工作，数据框将具有实体列和数据，如下所示:

DataFrame df = hiveContext.read().format("orc").load("path/to/table/entity=xyz")

但是，这在 Spark 1.6 中不起作用。

如果我提供如下所示的基本路径，它不包含我在 DataFrame 中想要的实体列，如下所示 -

DataFrame df = hiveContext.read().format("orc").load("path/to/table/")

如何在数据帧中加载特定的 hive 分区？删除此功能的驱动因素是什么？

我相信它是有效的。在 Spark 1.6 中是否有替代方案可以实现这一目标？

根据我的理解，Spark 1.6 加载所有分区，如果我过滤特定分区效率不高，它会命中内存并抛出 GC(垃圾收集)错误，因为数千个分区被加载到内存中而不是特定分区。

最佳答案

要使用 Spark 1.6 在 DataFrame 中添加特定分区，我们必须执行以下第一组 basePath然后给出需要加载的分区路径

DataFrame df = hiveContext.read().format("orc").
               option("basePath", "path/to/table/").
               load("path/to/table/entity=xyz")

所以上面的代码将只加载 DataFrame 中的特定分区。

关于apache-spark - 如何在 DataFrame Spark 1.6 中加载特定的 Hive 分区？，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/34659184/

文章推荐： perl - 使用 Try::Tiny 还是 Eval？

文章推荐： java - 将 JUnitCore ( JUnit ) 更改为 TestNG

文章推荐： java - 如何在非常大的 XML 文件中快速搜索/索引？

php - 在 PHP 中加/除数字
我正在开发一个需要能够平均三个数字的 Facebook 应用程序。但是，它总是返回 0 作为答案。这是我的代码: $y = 100; $n = 250; $m = 300; $number = ($y
javascript - 我需要将一个整数除以 12，如果结果是 float ，则在 javascript 中加 1
我只是无法弄清楚这一点，也找不到任何对我来说有意义的类似问题。我的问题:我从数据库中提取记录，并在我的网页上以每个面板 12 条的倍数显示它们。因此，我需要知道有多少个面板可以使用 JavaScrip

行者123

个人简介

我是一名优秀的程序员,十分优秀！

作者热门文章

滴滴打车优惠券免费领取

全站热门文章

首页

博学

6Ren·AI

商城

apache-spark - 如何在 DataFrame Spark 1.6 中加载特定的 Hive 分区？