apache-spark - 按列分区但保持固定分区计数的有效方法是什么？-6ren

apache-spark - 按列分区但保持固定分区计数的有效方法是什么？

转载作者：行者123 更新时间：2023-12-03 07:10:57

25

4

按字段将数据分区为预定义分区计数的最佳方法是什么？

我当前正在通过指定partionCount=600 对数据进行分区。发现计数 600 可为我的数据集/集群设置提供最佳查询性能。

val rawJson = sqlContext.read.json(filename).coalesce(600)
rawJson.write.parquet(filenameParquet)

现在我想按“eventName”列对此数据进行分区，但仍保留计数 600。数据当前有大约 2000 个唯一的 eventName，加上每个 eventName 中的行数并不统一。大约有 10 个 eventName 拥有超过 50% 的数据，导致数据倾斜。因此，如果我像下面这样进行分区，它的性能不是很好。写入所花费的时间比没有写入的时间多 5 倍。

val rawJson = sqlContext.read.json(filename)
rawJson.write.partitionBy("eventName").parquet(filenameParquet)

针对这些场景对数据进行分区的好方法是什么？有没有办法按 eventName 进行分区，但将其分散到 600 个分区？

我的架构如下所示:

{  
  "eventName": "name1",
  "time": "2016-06-20T11:57:19.4941368-04:00",
  "data": {
    "type": "EventData",
    "dataDetails": {
      "name": "detailed1",
      "id": "1234",
...
...
    }
  }
}

谢谢!

最佳答案

这是数据倾斜的常见问题，您可以采取多种方法。

如果倾斜随着时间的推移保持稳定，列表分桶就可以工作，情况可能是也可能不是，特别是在引入分区变量的新值的情况下。我还没有研究过随着时间的推移调整列表存储是多么容易，并且正如您的评论所述，无论如何您都不能使用它，因为它是 Spark 2.0 功能。

如果您使用的是 1.6.x，关键的观察结果是您可以创建自己的函数，将每个事件名称映射到 600 个唯一值之一。您可以将其作为 UDF 或 case 表达式来执行。然后，您只需使用该函数创建一个列，然后使用 repartition(600, 'myPartitionCol)(而不是 coalesce(600))按该列进行分区。

因为我们在 Swoop 处理非常倾斜的数据，我发现以下主力数据结构对于构建分区相关工具非常有用。

/** Given a key, returns a random number in the range [x, y) where
  * x and y are the numbers in the tuple associated with a key.
  */
class RandomRangeMap[A](private val m: Map[A, (Int, Int)]) extends Serializable {
  private val r = new java.util.Random() // Scala Random is not serializable in 2.10

  def apply(key: A): Int = {
    val (start, end) = m(key)
    start + r.nextInt(end - start)
  }

  override def toString = s"RandomRangeMap($r, $m)"
}

例如，以下是我们如何针对稍微不同的情况构建分区器:数据倾斜且键的数量很少，因此我们必须增加倾斜键的分区数量，同时坚持使用 1 作为每个键的最小分区数:

/** Partitions data such that each unique key ends in P(key) partitions.
  * Must be instantiated with a sequence of unique keys and their Ps.
  * Partition sizes can be highly-skewed by the data, which is where the
  * multiples come in.
  *
  * @param keyMap  maps key values to their partition multiples
  */
class ByKeyPartitionerWithMultiples(val keyMap: Map[Any, Int]) extends Partitioner {
  private val rrm = new RandomRangeMap(
    keyMap.keys
      .zip(
        keyMap.values
          .scanLeft(0)(_+_)
          .zip(keyMap.values)
          .map {
            case (start, count) => (start, start + count)
          }
      )
      .toMap
  )

  override val numPartitions =
    keyMap.values.sum

  override def getPartition(key: Any): Int =
    rrm(key)
}

object ByKeyPartitionerWithMultiples {

  /** Builds a UDF with a ByKeyPartitionerWithMultiples in a closure.
    *
    * @param keyMap  maps key values to their partition multiples
    */
  def udf(keyMap: Map[String, Int]) = {
    val partitioner = new ByKeyPartitionerWithMultiples(keyMap.asInstanceOf[Map[Any, Int]])
    (key:String) => partitioner.getPartition(key)
  }

}

就您而言，您必须将多个事件名称合并到一个分区中，这需要进行更改，但我希望上面的代码能让您了解如何解决该问题。

最后一个观察结果是，如果随着时间的推移，数据中事件名称的分布值很大，您可以对数据的某些部分执行统计收集以计算映射表。您不必一直这样做，只在需要时才这样做。要确定这一点，您可以查看每个分区中的行数和/或输出文件的大小。换句话说，整个过程可以作为 Spark 作业的一部分实现自动化。

关于apache-spark - 按列分区但保持固定分区计数的有效方法是什么？，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/38670369/

25

4

0

文章推荐： apache-kafka - Apache Kafka 主题名称限制有哪些？

文章推荐： visual-studio-code - 如何降级vscode

文章推荐： emacs - 如何使用emacs将填充模式的默认宽度设置为80？

文章推荐： wordpress - 重力表单提交给第三方并使用 wp_http() 重定向

html - 具有全屏高度的 3 列布局(固定-流体-固定)
我正在尝试实现 3 列固定-流体-固定布局。此外，布局的高度必须占据整个屏幕，使其看起来像从上到下的 3 个实心列。总结: Left-column: fixed-width Center-col
html - 具有最小宽度的 3 列布局(固定、流动、固定)
我在网上搜索过，似乎找不到一个干净、简单、所有浏览器都友好的 3 列布局。我希望有 3 列布局，左列固定为 200px，右列固定为 200px，中间列为剩余宽度，但最小宽度为 600px。所以整体最
css - 如何创建 3 列布局(固定、固定、流动)
关闭。这个问题需要更多focused .它目前不接受答案。想改进这个问题吗？更新问题，使其只关注一个问题 editing this post . 关闭 8 年前。 Improve this q
audio - 音频归一化/固定？
我正在使用一些音频指纹技术来标记长录音中的歌曲。例如，在广播节目中的记录。指纹机制工作正常，但我在归一化(或下采样)方面遇到问题。在这里您可以看到两首相同的歌曲，但波形不同。我知道我应该进行一些直流
c++ - 固定，设定精度功能
为什么使用cout调用setprecision和fixed以及其他iomanip函数不像例如name.find('')plz这样的字符串函数最佳答案它们允许您以以下方式链接操作: cout <<
jquery - 固定/跟随侧边栏的问题
我正在尝试创建一个侧边栏，当用户向下滚动页面时，该侧边栏会跟随用户，并且我设法使用以下代码实现了效果: 标记 Javas
macos - 内存是否被锁定(固定)？
我正在尝试设置一些性能分析以及影响缓冲策略的运行时决策。我的应用程序收到一个指向由库(CUDA 或 OpenCL)分配的缓冲区的指针。如何测试内存区域是否被页面锁定？据我所知，POSIX 给了我们
C# - 固定/内联数组
我正在用 C# 编写一个 B+ 树实现，我为我的应用程序选择的树实现有一个非常特定的结构，它是缓存敏感的。为了实现这些属性，它对树节点有严格的布局策略。我想要的只是使用 C# 的 fixed 来表达
Android，在屏幕底部定位一个元素，固定
我试图通过将 fragment 注入(inject)容器来在每个屏幕的底部放置一个广告 View 。通过使用 LinearLayout，我可以将 adview 置于操作栏下方的顶部。我已经尝试了 Re
jquery - 导航 - 固定
我正在尝试创建一个导航稍微复杂的网站。我已经让导航看起来像我想要的初始加载，但现在我试图让它粘性导航到滚动顶部。我已经能够在导航栏到达顶部时创建一个类，但无法使其粘滞。每次我添加一个位置时，它都会跳回
css - 固定、动态高度元素占用空间的解决方案
首先，我正在寻找一个纯 CSS 解决方案。我可以使用 JavaScript 非常轻松地做到这一点，所以不要费心给我提示如何在 JS 中做到这一点。我有一个包含 3 个容器的网页。其中 2 个是固定的
CSS 固定/绝对定位到较早的亲戚？
我猜这里有一种 super 特例。我正在处理许多包含。现在我正在一个包含的内容文件中编码。我需要一个灯箱，它有一个 20% 的黑色背景覆盖整个页面，包括本身固定的标题，并在先前的 PHP 文件中设置
css - 固定/相对定位 :
我正在尝试制作一个包含两个“固定”侧边栏图像和一个“固定”标题图像的页面。由于标题是固定的(距顶部 0 到 10%)。我不希望页眉图像与页面上的任何文本重叠。我尝试将段落标记定位为“相对”，并将其设置
CSS:居中位置:固定
我遇到了一个(水平)居中固定位置元素的解决方案，如下所示: element { width: 200px; position: fixed; left: 0; righ
HTML 正文高度 - 固定？
我试图让我的网站主体具有固定的高度(我想!)。无论如何，站点正文只是白色，边框大小为 1。基本上，正文的大小取决于其中的内容，例如，随着添加更多内容，它会自动调整大小。我想要的是垂直滚动条，这样主
css 布局(固定)
是否可以在 css 中创建 master-detail-states 布局？我需要 3 个占位符: +---------------+-------+ | A | B
同一请求中的 SSL 固定
我的问题是，我是否必须在每个 Get/Post 请求之前单独请求检查 SSL Pinning OkHttpClient client = new OkHttpClient.Builder().cert
algorithm - (固定)平衡树的摊销成本
假设我有一个具有 N 个节点的常量(一旦构建就不会改变)平衡树，每个内部节点都有 p 个子节点。显然，访问节点的最坏情况是 logp(N)。但是访问 r 个节点的摊销成本呢？如果我们按升序访问它们(有
php - 如何防止php项目中的 session 固定？
我知道会话固定是用php破解网站的方法。会话固定是一种允许攻击者劫持有效用户会话的攻击 session fixation 但我不知道这可以防止我的项目中出现此问题。是描述解决方案的方式或样本。最
jQuery Masonry 固定/前置元素
我在 jquery 砖石布局内有一个导航元素，我想将其修复到特定位置，比如右上角。是否可以这样做，以便所有其他元素都位于它周围？诸如前置导航之类的东西.. 这是我的代码:http://jsfiddl

首页

博学

6Ren·AI

商城

apache-spark - 按列分区但保持固定分区计数的有效方法是什么？