gpt4 book ai didi

python - 如何用pandas读取Spark写的文件?

转载 作者:行者123 更新时间:2023-12-01 07:27:12 25 4
gpt4 key购买 nike

当 Spark 将日期帧数据写入 parquet 文件时,Spark 将创建一个包含多个单独的 parquet 文件的目录。保存代码:

term_freq_df.write
.mode("overwrite")
.option("header", "true")
.parquet("dir/to/save/to")

我需要用 pandas 从此目录读取数据:

term_freq_df = pd.read_parquet("dir/to/save/to") 

错误:

IsADirectoryError: [Errno 21] Is a directory: 

如何通过简单的方法解决这个问题,即两个代码示例可以使用相同的文件路径?

最佳答案

通常,pandas.read_parquet 可以很好地读取包含多个(分区)parquet 文件的目录。所以我很好奇你得到的完整错误回溯。

演示这工作正常:

In [82]: pd.__version__ 
Out[82]: '0.25.0'

In [83]: df = pd.DataFrame({'A': ['a', 'b']*2, 'B':[1, 2, 3, 4]})

In [85]: df.to_parquet("test_directory", partition_cols=['A'])

这创建了一个包含多个 Parquet 文件的“test_directory”文件夹。我可以在使用 pandas 时读回这些内容:

In [87]: pd.read_parquet("test_directory/")
Out[87]:
B A
0 1 a
1 3 a
2 2 b
3 4 b

关于python - 如何用pandas读取Spark写的文件?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/57386739/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com