apache-spark - 与同等结构相比，为什么 Spark Row 对象如此之大？-6ren

apache-spark - 与同等结构相比，为什么 Spark Row 对象如此之大？

转载作者：行者123 更新时间：2023-12-03 06:14:17

27

4

我一直在使用 java-sizeof 库 ( https://github.com/phatak-dev/java-sizeof ) 并使用它来测量 Apache Spark 中的数据集大小。事实证明，Row 对象大得离谱。就像非常大——这是为什么？

采用一个相当简单的模式:

root
 |-- account: string (nullable = true)
 |-- date: long (nullable = true)
 |-- dialed: string (nullable = true)
 |-- duration: double (nullable = true)

示例数据如下所示:

+-------+-------------+----------+--------+
|account|         date|    dialed|duration|
+-------+-------------+----------+--------+
|   5497|1434620384003|9075112643|   790.0|
+-------+-------------+----------+--------+

所以现在我们这样做:

val row = df.take(1)(0)
// row: org.apache.spark.sql.Row = [5497,1434620384003,9075112643,790.0]

所以现在我使用SizeEstimator

SizeEstimator.estimate(row)
// res19: Long = 85050896

81兆字节!对于单行!我认为这是某种错误，我这样做:

SizeEstimator.estimate(df.take(100))
// res20: Long = 85072696

有趣的是，尽管保存的数据量是原来的 100 倍，但它并没有变大多少，仅变大了 20k 左右。超过 100，它似乎变得线性。对于 1,000 行，它看起来像这样:

SizeEstimator.estimate(df.take(1000))
// res21: Long = 850711696

好的，这大约是 100 行的 10 倍——或多或少是线性的。根据测试，它以线性方式增加，持续超过 100 行。根据这些测试，大约 100 行之后，每个 Row 对象的成本仍然超过 800 KB!!

出于好奇，我为相同的基础数据尝试了几种不同的对象类型。例如，以下是 Array 对象(而不是 Row 对象)的 Array 的结果:

SizeEstimator.estimate(
  df.map(r => (r.getString(0), r.getLong(1), r.getString(2), r.getDouble(3))).take(1)
)
// res22: Long = 216

好吧，这样好一点了。更好的是，对于 10 行，只有 1976 字节，对于 100 行，只有 19,616 字节。绝对是朝着正确的方向前进。

然后，我将相同的 DataFrame 编码为 RDD[Array[Byte]]，其中每个 Array[Byte] 都是一个二进制 -编码的 Avro 记录，与底层 DataFrame 具有相同的架构。然后我这样做:

SizeEstimator.estimate(encodedRdd.take(1))
// res23: Long = 72

72 字节——更好!而且，对于 100 行，它是 5,216 字节——每行大约 52 字节，并且从那里开始不断下降(1,000 条记录为 48,656 字节)。

因此，在最好的情况下，Row 对象每 Row 的重量为 850k，而相同数据的二进制 Avro 记录约为 50 个字节.

这是怎么回事？

最佳答案

实际上Row本身并没有那么大。这就是为什么当您获取更多行时，您不会看到 as 大小发生显着变化。问题似乎是架构信息:

当您收集数据时，您实际上会得到GenericRowWithSchema

val df = Seq((1, "foo"), (2, "bar")).toDF
df.first.getClass

// res12: Class[_ <: org.apache.spark.sql.Row] = 
//   class org.apache.spark.sql.catalyst.expressions.GenericRowWithSchema

GenericRowWithSchema carries schema information来自 schema 参数:

class GenericRowWithSchema(values: Array[Any], 
  override val schema: StructType)

让我们确认这确实是问题的根源:

import com.madhukaraphatak.sizeof.SizeEstimator
import org.apache.spark.sql.catalyst.expressions.GenericRowWithSchema

val rowWithSchema = df.first 
val rowWithoutSchema = new GenericRowWithSchema(
  rowWithSchema.toSeq.toArray, null)

SizeEstimator.estimate(rowWithSchema)
// Long = 1444255708

SizeEstimator.estimate(rowWithoutSchema)
// Long = 120

假设:您看到的估计大小包括架构的大小:

SizeEstimator.estimate(df.schema)
// Long = 1444361928

与收集的行的数量级大致相同。让我们从头开始创建一个新架构:

import org.apache.spark.sql.types._

val schema = StructType(Seq(
  StructField("_1",IntegerType,false), 
  StructField("_2",StringType,true)))


val anotherRowWithSchema = new GenericRowWithSchema(
  Array(0, "foo"), schema) 

SizeEstimator.estimate(anotherRowWithSchema)
// Long = 1444905324

如您所见，结果是一致的。

为什么模式这么大？很难说。当您查看代码时，您会看到 StructType是一个复杂的类，甚至不包括其伴生对象，而不是一个简单的模式定义。
但它没有解释报告的大小。我怀疑这可能是 SizeEstimator 中的一些侥幸，但我还不确定。

您可以进一步隔离问题，但估计单个 StructField 的大小:

import org.apache.spark.sql.types._
import com.madhukaraphatak.sizeof.SizeEstimator

object App {
  def main(args: Array[String]) {
    val schema = StructField("foo", IntegerType, true)
    println(SizeEstimator.estimate(schema))
    // 271872172
  }
}

关于apache-spark - 与同等结构相比，为什么 Spark Row 对象如此之大？，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/36606679/

27

4

0

文章推荐： performance - Vim 处理远程文件时性能缓慢

haskell - .与haskell中的$相比
这个问题在这里已经有了答案: 11年前关闭。 Possible Duplicate: Haskell: difference between . (dot) and $ (dollar sign) 好
Java开发标准和工具(与C#相比)
我对 Java 平台没有任何了解，我想知道可以使用哪些工具(和方法)来帮助开发用 Java 编写的可维护代码。我知道可以使用: 适用于任何环境的敏捷方法用于单元测试代码的 jUnit/jMock(
css - 与IE10+相比，IE9不支持的所有CSS规则有没有聪明的方法？
我们的产品需要支持 IE9，但我们一直假设 IE9 支持 IE10+ CSS 规则。是否有一种巧妙的方法来获取在 IE10+ 中有效但在 IE9 中不受支持的所有 CSS 规则，目的是在静态代码分析
c++ - 重载 += 与 + 相比
我需要为 MyString 类重载运算符 + 和 +=。 MyString.h class MyString { char* m_pStr; }; 主要
java - 与 i++ 相比，执行强制转换操作的成本有多高？
按照目前的情况，这个问题不适合我们的问答形式。我们希望答案得到事实、引用或专业知识的支持，但这个问题可能会引发辩论、争论、投票或扩展讨论。如果您觉得这个问题可以改进并可能重新打开，visit the
c++ - `ofstream` 与 0 相比
我正在升级现有的旧代码以使用 VS 2019*，在代码中我有以下函数在返回行失败: int foo(const char *fn) const { ofstream out(fn,ios::b
R2D3 与 D3.js 相比
我想使用 R2D3 pacakge 在 R 中，但我不确定这个包与 D3.js 库的关系。 R2D3 是否以任何方式限制 D3 的功能？我们可以将 R 中的所有 D3 功能和特性与 R2D3 一起使用
c# - 语音识别质量极差，尤其是与 Word 相比
我正在使用 WPF 语音识别库，试图在桌面应用程序中使用它来替代菜单命令。 (我想专注于没有键盘的平板电脑体验)。它可以工作 - 有点，除了识别的准确性太差以至于无法使用。所以我试着听写到 Word。
sql - SELECT FROM WHERE IN 与多个表上的 SELECT FROM 相比
我在学校参加数据库类(class)。老师给了我们一个简单的练习:考虑以下简单的模式: Table Book: Column title (primary key) Column gen
mvvm - MVVM 架构中的模型与 MVC 相比
我正在尝试学习 MVVM 模式，特别是当 View 表示数据库表时该怎么做，但 View 有几个元素表示单个数据库字段。举个简单的例子: 假设我有一个 DateTime 类型的数据库字段(每个数据库字
与具有几百万行的表上的 "<>"相比，SQL Server "="运算符非常慢
我有两张 table 。表单有约 77000 行。日志约有 270 万行。以下查询将在不到一秒的时间内返回“30198”: SELECT COUNT(DISTINCT logs.DOCID) FRO
R 中的回归(与 Eviews 相比)
当您在 Eviews 中进行回归时，您会得到一组这样的统计数据: 在 R 中有没有一种方法可以在一个列表中获得所有/大部分关于 R 回归的统计数据？最佳答案请参阅summary，它将为大多数回归对
dictionary - 与Go中的 map 相比，搜索无序数组要花多少个元素
如果我枚举 type XType int const ( X1 XType = iota X2 ... Xn ) var XTypeNames = []string{"x1", "x2
r - 与 randomForest 相比，游侠的错误预测
我正在试用 ranger R包加速做了很多randomForest计算。我正在检查我从中得到的预测，并注意到一些有趣的事情，因为所做的预测完全不正确。以下是比较 randomForest 的可重现示
clang - 与 GCC 相比，编译时间显着变慢
我发现 Clang 编译速度比 GCC 慢了四倍。知道是什么原因造成的吗？ ebg@tsuki(250)$ time /usr/bin/cc -DHC4 -DSAFETY -DNOREDUCE -DN
jquery - $.ajax 与 $.post 相比
我注意到在尝试以 JSON 格式发布表单数据时，以下内容不起作用: $.ajax({ type: "POST", url: url, data: JSON.string
c# - 与#if/#endif 相比，条件属性的缺点是什么？
我的代码库中有很多 #if DEBUG/#endif 语句，它们大多具有断言类型逻辑，我不敢在生产环境中运行这些逻辑。 [Conditional("DEBUG")] public void Check
c - 想知道何时使用 do while 循环与 while 相比(内部示例)
所以我正在开发一个平方根计算器，但我不知道 while 循环是否比 do while 循环更适合。 double x, y = 1.0, newY, squareRoot; bool
c# - 与另一个列表 LINQ 相比，检查一个列表中有哪些元素
我有两个列表，一个是所有语言，另一个是网站拥有的语言子集，我的想法是返回所有语言，但如果子集的元素对应于所有语言的列表，则更改 bool 值的属性. 语言的DTO: public class DTOL
c# - 与 winform 相比，来自控制台的过程
以下控制台应用程序运行正常 - 我很惊讶它没有出错。 class DelegateExperiments { //>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>

首页

博学

6Ren·AI

商城

apache-spark - 与同等结构相比，为什么 Spark Row 对象如此之大？