gpt4 book ai didi

csv - pyspark:spark.read.format ("csv") 与 spark.read.csv 的差异性能

转载 作者:行者123 更新时间:2023-12-02 00:16:11 24 4
gpt4 key购买 nike

有人知道 spark.read.format("csv") 和 spark.read.csv 之间有什么区别吗?

有人说“spark.read.csv”是“spark.read.format("csv")”的别名,但我看到了两者之间的区别。我做了一个实验,使用新的 pyspark 执行下面的每个命令 session ,以便没有缓存。

DF1 用了 42 秒,而 DF2 只用了 10 秒。 csv 文件超过 60 GB。

DF1 = spark.read.format("csv").option("header", "true").option("inferSchema", "true").load("hdfs://bda-ns/user/project/xxx.csv")

DF2 = spark.read.option("header", "true").csv("hdfs://bda-ns/user/project/xxx.csv")

我深入研究这个问题的原因是因为我需要在过滤后对 2 个数据帧进行联合,然后写回 hdfs,这需要很长时间才能写入(16 小时后仍在写入......)

最佳答案

基本上,当您调用其中一个时,它们完全相同。但是在你的实现中是不同的

对于 DF1,您添加 inferSchema 选项,它会减慢进程,这解释了为什么 DF1 比第二个花费更多时间

inferSchema:自动推断列类型。它需要额外传递一次数据,默认情况下为 false, Detail document

关于csv - pyspark:spark.read.format ("csv") 与 spark.read.csv 的差异性能,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/56895707/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com