apache-spark - 如何找到RDD的大小-6ren

apache-spark - 如何找到RDD的大小

转载作者：行者123 更新时间：2023-12-02 20:40:01

24

4

我有RDD[Row]，它需要保留到第三方存储库中。
但是此第三方存储库在单个调用中最多接受5 MB。

因此，我想基于RDD中存在的数据大小而不是RDD中存在的行数来创建分区。

如何找到RDD的大小并基于它创建分区？

最佳答案

正如贾斯汀(Justin)和王(Wang)提到的那样，获得RDD的大小并非直接。我们可以做一个估计。

我们可以对RDD进行采样，然后使用SizeEstimator获得采样的大小。
正如王和贾斯汀所说，
根据离线取样的大小数据，例如X行使用Y GB离线，运行时Z行可能需要Z * Y / X GB

这是样本scala代码，用于获取RDD的大小/估算值。

我是scala和spark的新手。下面的示例可能会写得更好

def getTotalSize(rdd: RDD[Row]): Long = {
  // This can be a parameter
  val NO_OF_SAMPLE_ROWS = 10l;
  val totalRows = rdd.count();
  var totalSize = 0l
  if (totalRows > NO_OF_SAMPLE_ROWS) {
    val sampleRDD = rdd.sample(true, NO_OF_SAMPLE_ROWS)
    val sampleRDDSize = getRDDSize(sampleRDD)
    totalSize = sampleRDDSize.*(totalRows)./(NO_OF_SAMPLE_ROWS)
  } else {
    // As the RDD is smaller than sample rows count, we can just calculate the total RDD size
    totalSize = getRDDSize(rdd)
  }

  totalSize
}

def getRDDSize(rdd: RDD[Row]) : Long = {
    var rddSize = 0l
    val rows = rdd.collect()
    for (i <- 0 until rows.length) {
       rddSize += SizeEstimator.estimate(rows.apply(i).toSeq.map { value => value.asInstanceOf[AnyRef] })
    }

    rddSize
}

关于apache-spark - 如何找到RDD的大小，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/49925338/

24

4

0

文章推荐： hadoop - HDInsight 上的 HCatalog 通知

文章推荐： macos - 如何在 OSX 中更改 Docker 守护程序的参数

文章推荐： docker - Docker容器可以在其中共享目录吗

文章推荐： mongodb - 构建MongoDB Docker镜像

grails - Cereal ，哥伦。按 parent 找 child ，按 child 找 parent
例如，我有一个父类Author: class Author { String name static hasMany = [ fiction: Book,
javascript - DOJO:找 child
代码如下: dojo.query(subNav.navClass).forEach(function(node, index, arr){ if(dojo.style(node, 'd
mysql - 加入两张 table 找 friend
我有一个带有 Id 和姓名的学生表和一个带有 Id 和 friend Id 的 Friends 表。我想加入这两个表并找到学生的 friend 。例如，Ashley 的 friend 是 Saman
grails - Grails按 child 找 parent
我通过互联网浏览，但仍未找到问题的答案。应该很容易: class Parent { String name Child child } 当我有一个 child 对象时，如何获得它的 paren
android - Firebase Android 找 friend 功能
我正在尝试创建一个以 Firebase 作为我的后端的社交应用。现在我正面临如何(在哪里？)找到 friend 功能的问题。我有每个用户的邮件地址。我可以访问用户的电话也预订。在传统的后端中，我
ios - Apple Game Center 和 Facebook 找 friend iOS6
我主要想澄清以下几点: 1。有人告诉我，在 iOS 5 及以下版本中，如果您使用 Game Center 设置多人游戏，则“查找 Facebook 好友”(如与好友争夺战)的功能不是内置的，因此您需要
docker - 有什么用!意思？找。\! -用户redis -exec chown redis '{}' +
关于redis docker镜像ENTRYPOINT脚本 docker-entrypoint.sh : #!/bin/sh set -e # first arg is `-f` or `--some-

首页

博学

6Ren·AI

商城

apache-spark - 如何找到RDD的大小