- html - 出于某种原因,IE8 对我的 Sass 文件中继承的 html5 CSS 不友好?
- JMeter 在响应断言中使用 span 标签的问题
- html - 在 :hover and :active? 上具有不同效果的 CSS 动画
- html - 相对于居中的 html 内容固定的 CSS 重复背景?
我一直在使用 java-sizeof
库 ( https://github.com/phatak-dev/java-sizeof ) 并使用它来测量 Apache Spark 中的数据集大小。事实证明,Row 对象大得离谱。就像非常大——这是为什么?
采用一个相当简单的模式:
root
|-- account: string (nullable = true)
|-- date: long (nullable = true)
|-- dialed: string (nullable = true)
|-- duration: double (nullable = true)
示例数据如下所示:
+-------+-------------+----------+--------+
|account| date| dialed|duration|
+-------+-------------+----------+--------+
| 5497|1434620384003|9075112643| 790.0|
+-------+-------------+----------+--------+
所以现在我们这样做:
val row = df.take(1)(0)
// row: org.apache.spark.sql.Row = [5497,1434620384003,9075112643,790.0]
所以现在我使用SizeEstimator
SizeEstimator.estimate(row)
// res19: Long = 85050896
81兆字节!对于单行!我认为这是某种错误,我这样做:
SizeEstimator.estimate(df.take(100))
// res20: Long = 85072696
有趣的是,尽管保存的数据量是原来的 100 倍,但它并没有变大多少,仅变大了 20k 左右。超过 100,它似乎变得线性。对于 1,000 行,它看起来像这样:
SizeEstimator.estimate(df.take(1000))
// res21: Long = 850711696
好的,这大约是 100 行的 10 倍——或多或少是线性的。根据测试,它以线性方式增加,持续超过 100 行。根据这些测试,大约 100 行之后,每个 Row 对象的成本仍然超过 800 KB!!
出于好奇,我为相同的基础数据尝试了几种不同的对象类型。例如,以下是 Array
对象(而不是 Row
对象)的 Array
的结果:
SizeEstimator.estimate(
df.map(r => (r.getString(0), r.getLong(1), r.getString(2), r.getDouble(3))).take(1)
)
// res22: Long = 216
好吧,这样好一点了。更好的是,对于 10 行,只有 1976 字节,对于 100 行,只有 19,616 字节。绝对是朝着正确的方向前进。
然后,我将相同的 DataFrame
编码为 RDD[Array[Byte]]
,其中每个 Array[Byte]
都是一个二进制 -编码的 Avro
记录,与底层 DataFrame
具有相同的架构。然后我这样做:
SizeEstimator.estimate(encodedRdd.take(1))
// res23: Long = 72
72 字节——更好!而且,对于 100 行,它是 5,216 字节——每行大约 52 字节,并且从那里开始不断下降(1,000 条记录为 48,656 字节)。
因此,在最好的情况下,Row
对象每 Row
的重量为 850k,而相同数据的二进制 Avro
记录约为 50 个字节.
这是怎么回事?
最佳答案
实际上Row
本身并没有那么大。这就是为什么当您获取更多行时,您不会看到 as 大小发生显着变化。问题似乎是架构信息:
当您收集数据时,您实际上会得到GenericRowWithSchema
val df = Seq((1, "foo"), (2, "bar")).toDF
df.first.getClass
// res12: Class[_ <: org.apache.spark.sql.Row] =
// class org.apache.spark.sql.catalyst.expressions.GenericRowWithSchema
GenericRowWithSchema
carries schema information来自 schema
参数:
class GenericRowWithSchema(values: Array[Any],
override val schema: StructType)
让我们确认这确实是问题的根源:
import com.madhukaraphatak.sizeof.SizeEstimator
import org.apache.spark.sql.catalyst.expressions.GenericRowWithSchema
val rowWithSchema = df.first
val rowWithoutSchema = new GenericRowWithSchema(
rowWithSchema.toSeq.toArray, null)
SizeEstimator.estimate(rowWithSchema)
// Long = 1444255708
SizeEstimator.estimate(rowWithoutSchema)
// Long = 120
假设:您看到的估计大小包括架构的大小:
SizeEstimator.estimate(df.schema)
// Long = 1444361928
与收集的行的数量级大致相同。让我们从头开始创建一个新架构:
import org.apache.spark.sql.types._
val schema = StructType(Seq(
StructField("_1",IntegerType,false),
StructField("_2",StringType,true)))
val anotherRowWithSchema = new GenericRowWithSchema(
Array(0, "foo"), schema)
SizeEstimator.estimate(anotherRowWithSchema)
// Long = 1444905324
如您所见,结果是一致的。
为什么模式这么大?很难说。当您查看代码时,您会看到 StructType
是一个复杂的类,甚至不包括其伴生对象,而不是一个简单的模式定义。
但它没有解释报告的大小。我怀疑这可能是 SizeEstimator
中的一些侥幸,但我还不确定。
您可以进一步隔离问题,但估计单个 StructField
的大小:
import org.apache.spark.sql.types._
import com.madhukaraphatak.sizeof.SizeEstimator
object App {
def main(args: Array[String]) {
val schema = StructField("foo", IntegerType, true)
println(SizeEstimator.estimate(schema))
// 271872172
}
}
关于apache-spark - 与同等结构相比,为什么 Spark Row 对象如此之大?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/36606679/
这个问题在这里已经有了答案: 11年前关闭。 Possible Duplicate: Haskell: difference between . (dot) and $ (dollar sign) 好
我对 Java 平台没有任何了解,我想知道可以使用哪些工具(和方法)来帮助开发用 Java 编写的可维护代码。 我知道可以使用: 适用于任何环境的敏捷方法 用于单元测试代码的 jUnit/jMock(
我们的产品需要支持 IE9,但我们一直假设 IE9 支持 IE10+ CSS 规则。 是否有一种巧妙的方法来获取在 IE10+ 中有效但在 IE9 中不受支持的所有 CSS 规则,目的是在静态代码分析
我需要为 MyString 类重载运算符 + 和 +=。 MyString.h class MyString { char* m_pStr; }; 主要
按照目前的情况,这个问题不适合我们的问答形式。我们希望答案得到事实、引用或专业知识的支持,但这个问题可能会引发辩论、争论、投票或扩展讨论。如果您觉得这个问题可以改进并可能重新打开,visit the
我正在升级现有的旧代码以使用 VS 2019*,在代码中我有以下函数在返回行失败: int foo(const char *fn) const { ofstream out(fn,ios::b
我想使用 R2D3 pacakge 在 R 中,但我不确定这个包与 D3.js 库的关系。 R2D3 是否以任何方式限制 D3 的功能?我们可以将 R 中的所有 D3 功能和特性与 R2D3 一起使用
我正在使用 WPF 语音识别库,试图在桌面应用程序中使用它来替代菜单命令。 (我想专注于没有键盘的平板电脑体验)。它可以工作 - 有点,除了识别的准确性太差以至于无法使用。所以我试着听写到 Word。
我在学校参加数据库类(class)。老师给了我们一个简单的练习:考虑以下简单的模式: Table Book: Column title (primary key) Column gen
我正在尝试学习 MVVM 模式,特别是当 View 表示数据库表时该怎么做,但 View 有几个元素表示单个数据库字段。举个简单的例子: 假设我有一个 DateTime 类型的数据库字段(每个数据库字
我有两张 table 。表单有约 77000 行。日志约有 270 万行。 以下查询将在不到一秒的时间内返回“30198”: SELECT COUNT(DISTINCT logs.DOCID) FRO
当您在 Eviews 中进行回归时,您会得到一组这样的统计数据: 在 R 中有没有一种方法可以在一个列表中获得所有/大部分关于 R 回归的统计数据? 最佳答案 请参阅summary,它将为大多数回归对
如果我枚举 type XType int const ( X1 XType = iota X2 ... Xn ) var XTypeNames = []string{"x1", "x2
我正在试用 ranger R包加速做了很多randomForest计算。我正在检查我从中得到的预测,并注意到一些有趣的事情,因为所做的预测完全不正确。 以下是比较 randomForest 的可重现示
我发现 Clang 编译速度比 GCC 慢了四倍。知道是什么原因造成的吗? ebg@tsuki(250)$ time /usr/bin/cc -DHC4 -DSAFETY -DNOREDUCE -DN
我注意到在尝试以 JSON 格式发布表单数据时,以下内容不起作用: $.ajax({ type: "POST", url: url, data: JSON.string
我的代码库中有很多 #if DEBUG/#endif 语句,它们大多具有断言类型逻辑,我不敢在生产环境中运行这些逻辑。 [Conditional("DEBUG")] public void Check
所以我正在开发一个平方根计算器,但我不知道 while 循环是否比 do while 循环更适合。 double x, y = 1.0, newY, squareRoot; bool
我有两个列表,一个是所有语言,另一个是网站拥有的语言子集,我的想法是返回所有语言,但如果子集的元素对应于所有语言的列表,则更改 bool 值的属性. 语言的DTO: public class DTOL
以下控制台应用程序运行正常 - 我很惊讶它没有出错。 class DelegateExperiments { //>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>
我是一名优秀的程序员,十分优秀!