gpt4 book ai didi

pyspark - Spark 数据帧 CSV 与 Parquet

转载 作者:行者123 更新时间:2023-12-05 06:36:54 24 4
gpt4 key购买 nike

我是 Spark 的初学者,正在尝试了解 Spark 数据帧的机制。当从 csv 和 parquet 加载数据时,我正在比较 spark sql 数据帧上的 sql 查询的性能。我的理解是,一旦将数据加载到 spark 数据帧中,数据的来源(csv 或 parquet)就无关紧要了。但是我看到两者之间存在显着的性能差异。我正在使用以下命令加载数据并针对它编写查询。

dataframe_csv = sqlcontext.read.format("csv").load()

dataframe_parquet = sqlcontext.read.parquet()

请解释差异的原因。

最佳答案

之所以看到 csv 和 parquet 之间的性能不同,是因为 parquet 具有柱状存储,而 csv 具有纯文本格式。列式存储更适合实现较小的存储大小,但从数据帧读取纯文本的速度更快。

关于pyspark - Spark 数据帧 CSV 与 Parquet,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/48727052/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com