apache-spark - Spark 是否知道 DataFrame 的分区键？-6ren

apache-spark - Spark 是否知道 DataFrame 的分区键？

转载作者：行者123 更新时间：2023-12-03 21:28:19

27

4

我想知道 Spark 是否知道 parquet 文件的分区键并使用此信息来避免洗牌。

上下文:

运行 Spark 2.0.1 运行本地 SparkSession。我有一个 csv 数据集，我将其保存为磁盘上的 Parquet 文件，如下所示:

val df0 = spark
  .read
  .format("csv")
  .option("header", true)
  .option("delimiter", ";")
  .option("inferSchema", false)
  .load("SomeFile.csv"))


val df = df0.repartition(partitionExprs = col("numerocarte"), numPartitions = 42)

df.write
  .mode(SaveMode.Overwrite)
  .format("parquet")
  .option("inferSchema", false)
  .save("SomeFile.parquet")

我正在按列创建 42 个分区 numerocarte .这应该将多个 numerocarte 分组。到同一个分区。我不想在 write 上做 partitionBy("numerocarte")时间，因为我不希望每张卡有一个分区。这将是数以百万计的人。

之后在另一个脚本中我读到了 SomeFile.parquet parquet 文件并对其进行一些操作。特别是我正在运行 window function在它上面分区是在 parquet 文件被重新分区的同一列上完成的。

import org.apache.spark.sql.expressions.Window
import org.apache.spark.sql.functions._

val df2 = spark.read
  .format("parquet")
  .option("header", true)
  .option("inferSchema", false)
  .load("SomeFile.parquet")

val w = Window.partitionBy(col("numerocarte"))
.orderBy(col("SomeColumn"))

df2.withColumn("NewColumnName",
      sum(col("dollars").over(w))

之后 read我可以看到 repartition按预期工作，DataFrame df2有 42 个分区，每个分区都有不同的卡。

问题:

Spark 是否知道数据框 df2由列 numerocarte 划分?

如果它知道，那么窗口函数中就不会有洗牌了。真的？

如果它不知道，它将在窗口函数中进行随机播放。真的？

如果它不知道，我如何告诉 Spark 数据已经被右列分区了？

如何检查 DataFrame 的分区键?有这个命令吗？我知道如何检查分区数，但如何查看分区键？

当我在每一步之后打印文件中的分区数时，read 之后我有 42 个分区和 withColumn 之后的 200 个分区这表明 Spark 重新分区了我的 DataFrame .

如果我有两个使用同一列重新分区的不同表，连接会使用该信息吗？

最佳答案

我正在回答我自己的问题以供将来引用什么有效。

根据@user8371915 的建议，bucketBy 有效!

我正在保存我的 DataFrame df :

df.write
  .bucketBy(250, "userid")
  .saveAsTable("myNewTable")

然后当我需要加载这个表时:

val df2 = spark.sql("SELECT * FROM myNewTable")

val w = Window.partitionBy("userid")

val df3 = df2.withColumn("newColumnName", sum(col("someColumn")).over(w)
df3.explain

我确认当我在 df2 上执行窗口功能时由 userid 划分没有洗牌!谢谢@user8371915!

我在调查它时学到的一些东西

myNewTable 看起来像一个普通的 Parquet 文件，但它不是。您可以使用 spark.read.format("parquet").load("path/to/myNewTable") 正常阅读。但是 DataFrame以这种方式创建的不会保留原来的分区!您必须使用 spark.sql select正确分区 DataFrame .

您可以使用 spark.sql("describe formatted myNewTable").collect.foreach(println) 查看表格内部.这将告诉您哪些列用于分桶以及有多少个桶。

利用分区的窗口函数和连接通常也需要排序。您可以在写入时使用 .sortBy() 对存储桶中的数据进行排序。并且排序也将保留在配置单元表中。 df.write.bucketBy(250, "userid").sortBy("somColumnName").saveAsTable("myNewTable")

在本地模式下工作时，表 myNewTable保存到 spark-warehouse我本地 Scala SBT 项目中的文件夹。通过 spark-submit 使用 mesos 以集群模式保存时，保存到hive仓库。对我来说，它位于 /user/hive/warehouse .

当做spark-submit您需要添加到您的 SparkSession两个选项:.config("hive.metastore.uris", "thrift://addres-to-your-master:9083")和 .enableHiveSupport() .否则，您创建的配置单元表将不可见。

如果要将表保存到特定数据库，请执行 spark.sql("USE your database")装桶前。

2018 年 5 月 2 日更新

我在使用 spark 分桶和创建 Hive 表时遇到了一些问题。请引用 Why is Spark saveAsTable with bucketBy creating thousands of files? 中的问题、回复和评论

关于apache-spark - Spark 是否知道 DataFrame 的分区键？，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/48459208/

27

4

0

文章推荐： java - 将 Java 中的 ArrayList.toArray() 类型转换为普通数组

文章推荐： python - Python 中的 Tkinter - 从事件窗口中删除小部件

文章推荐： vb.net - 应用激活

文章推荐： security - "Same Origin Policy"可以给我们买什么？

PHP - 使关联数组唯一，键 ->值和值 ->键
我在 php 方面遇到了一个小问题，我发现很难用语言来解释。我有一个包含键值的关联数组。我想制作一个函数(或者如果已经有一个函数)，它将一个数组作为输入并删除重复项，但两种方式都是如此。例如: 在我
c# - Winforms App (C#) 中的 Windows 键 + [键] 快捷方式
我有一个在系统托盘中运行的应用程序，是否可以允许用户通过 C# 中的 Windows 键 + 键恢复该应用程序？谢谢最佳答案是的，使用 Windows API。我认为 Windows 键与 C
mysql - findOne({键 :value}) or findOne(). 其中({键 :value}) when querying database with waterline?
我正在使用 Waterline通过 Sails 查询 MySQL 数据库。我找到了 2 种方法。不知道哪个更好？顺便问一下，如何处理这两种情况的错误？ 1. Model.findOne().whe
C# 键枚举混淆 : Keys. Alt 或 Keys.RButton |键.ShiftKey |键.Alt
我正在尝试测试是否按下了 Alt 键。我的支票类似于: private void ProcessCmdKey(Keys keyData) { if (keyData == Keys.Alt) {
ruby - 按 TAB 键，然后在带有 Ruby 的 Selenium WebDriver 中按 ENTER 键
我正在使用 Selenium WebDriver 和 Ruby 进行自动化测试。我需要点击一个按钮。我无法通过 id 或 css 或 xpath 获取按钮元素，因为按钮是透明的。我想使用 Tab 和
ide - 什么是⎋键
我是 IntelliJ 的新手，我看到一个启动提示说，“任何工具窗口中的 ⎋ 键都会将焦点移动到编辑器。”但是，我不知道⎋键是什么。我一直在编程很长时间。我的键盘上可能有一个我多年来一直错过的键吗？
javascript - 每次用户单击输入中的空格键时如何添加 + 键
我使用 OMDB API 创建了一个电影搜索页面。我遇到的问题是，如果我搜索一部包含多个单词的电影，此 API 会出错，因为 API 的 URL 必须在 URL 中的每个单词之间有 + 键。所以我想知
名称为彼此子字符串的 Elasticsearch 键
我已经用 Elasticsearch 玩了大约一天了，所以我非常陌生。我正在尝试 POST/import 一个简单的文件: { "compression" : "none", "com
javascript - 键/值对的值也可以是键吗？
enter image description here 在此示例中，要记录带有“title”和“director”键的属性值，使用 obj[key]。因为我们已经处于对象的执行上下文中:在本例中是电
来自同一台机器的多个项目的开放类次的 ssh 键
我是新开类。我使用新的电子邮件 ID 和密码在 openshift 上创建了一个项目。让我们称之为 firstApp 。我做了 rhc 设置和我的 ssh key 与我的项目相关联。我的 frie
java - Jackson反序列化json字符串但bean缺少json字符串的属性/键
当我使用 Jackson 反序列化 json 字符串时，我通常不想创建所有 bean 类的属性，而且我只需要一些 json 字符串的字段，其他字段我不需要。所以我经常只在我需要的 java 类 bea
clojure - 键*/具有内联值规范的键
我想编写一个带有 keys/keys* 的规范，但能够内联值规范，但不支持 by design ，我明白了其背后的原因。然而，有时，本地图存在特定上下文时，您确实希望(或者只是通过遗留或第三方)键和值
perl - 键/值的分配顺序是什么？
my %fruit_colors = ("apple", "red", "banana", "yellow"); my @fruits = keys %fruit_colors; my @colors
DataGridView/Enter 键？
我正在使用 vb.net 2008 和 DataGridView。我正在寻找允许我将 enter 键移动到右侧的下一列而不是在保持在同一列时向下移动一行的代码。最佳答案如果您正在确认编辑，只需移动
javascript - 迭代对象属性/键
我刚刚开始学习编码，我遇到了这个我无法理解的问题。 “我们将添加的第二个函数称为搜索，它将以名字作为参数。它将尝试将收到的名字与我们 friend 联系人列表中的任何名字相匹配。如果它找到匹配项，就会
python - 改变Python中的字典/键
我已经在 Python 中运行了下面的代码，以从文本文件中生成单词列表及其计数。我该如何从“Frequency_list”变量中过滤掉计数为 1 的单词？另外，如何将底部的打印语句循环导出到CSV
XSLT 键()查找
我正在尝试 XSLT 中的查找表示例，但无法使其正常工作
javascript - 从对象返回访问的属性名(键)
是否可以在 Javascript/Typescript 中编写一个将参数名称/键作为字符串返回的函数？ function foo(arg) {...} let user = new User(); f
对象中未填充 Javascript 键
我正在尝试创建一个带有键/值的对象，但是当我看到该对象时，键没有正确填充.. 我希望键是 - 0,1,2,3 但它显示“索引”作为键。 > categories = ["09/07/2016 00:0
Android模拟器硬件键盘[Esc]键
将 Android Studio 从 1.5 升级到 2.0 后，模拟器(现在版本为 25.1.1，我在其上配置了模拟硬件键盘)不再将 [Esc] 键识别为等同于 [Back] 按钮。如何恢复这个有

首页

博学

6Ren·AI

商城

apache-spark - Spark 是否知道 DataFrame 的分区键？