python - 如何用pandas读取Spark写的文件？-6ren

python - 如何用pandas读取Spark写的文件？

转载作者：行者123 更新时间：2023-12-01 07:27:12

25

4

当 Spark 将日期帧数据写入 parquet 文件时，Spark 将创建一个包含多个单独的 parquet 文件的目录。保存代码:

term_freq_df.write
            .mode("overwrite")
            .option("header", "true")
            .parquet("dir/to/save/to")

我需要用 pandas 从此目录读取数据:

term_freq_df = pd.read_parquet("dir/to/save/to")

错误:

IsADirectoryError: [Errno 21] Is a directory:

如何通过简单的方法解决这个问题，即两个代码示例可以使用相同的文件路径？

最佳答案

通常，pandas.read_parquet 可以很好地读取包含多个(分区)parquet 文件的目录。所以我很好奇你得到的完整错误回溯。

演示这工作正常:

In [82]: pd.__version__ 
Out[82]: '0.25.0'

In [83]: df = pd.DataFrame({'A': ['a', 'b']*2, 'B':[1, 2, 3, 4]})

In [85]: df.to_parquet("test_directory", partition_cols=['A'])

这创建了一个包含多个 Parquet 文件的“test_directory”文件夹。我可以在使用 pandas 时读回这些内容:

In [87]: pd.read_parquet("test_directory/")
Out[87]: 
   B  A
0  1  a
1  3  a
2  2  b
3  4  b

关于python - 如何用pandas读取Spark写的文件？，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/57386739/

25

4

0

文章推荐： Smalltalk - 打印 :

文章推荐： jquery - 在同一页面的多个 id 中运行相同的效果

文章推荐： servicestack - 使用 FluentValidation 对 ServiceStack 进行单元测试

c++ - 是否不可能在 QdataStream 为 float 写 4 个字节，为 double 写 8 个字节？
我需要(我必须)将大量 float 写入 qdatastream 并且我只使用 4 个字节是必要的。setFloatingPointPrecision 或为 float 和 double 写入 4 或
Python和C文件同时读/写
我有一些 C 代码，我用 Python 对其进行了扩展。扩展的 C 代码有一个将一些结构附加到二进制文件的函数: void writefunction(const struct struct1* so
写/读文件冲突
我正在用 C 语言开发一个小软件，用于在布告栏中读取和写入消息。每条消息都是一个以渐进数字命名的 .txt。软件是多线程的，有很多用户可以并发操作。用户可以进行的操作有: 阅读整个公告板(所有 .
java内存映射文件多线程读/写
我有 2 个线程同时访问同一个大文件 (.txt)。第一个线程正在从文件中读取。第二个线程正在写入文件。两个线程都访问同一个 block ，例如(开始:0， block 大小:10)，但具有不同的
linux剪贴板在C中读/写
我做了很多谷歌搜索，但我仍然不确定如何继续。 Linux 下最常见的剪贴板读写方式是什么？我想要同时支持 Gnome 和 KDE 桌面。更新:我是否认为没有简单的解决方案，必须将多个来源(gnome
写 Java 代码的14个好习惯
1. 定义配置文件信息有时候我们为了统一管理会把一些变量放到 yml 配置文件中例如图片用 @ConfigurationProperties 代替 @Value 使用方法定义对应字段的实体
io - FORTRAN 写()
在开始之前，我必须先声明我是 FORTRAN 的新手。我正在维护 1978 年的一段遗留代码。它的目的是从文件中读取一些数据值，处理这些值，然后将处理过的值输出到另一个文本文件。给定以下 FORTR
iPhone读/写.plist文件
我正在制作一个应用程序，我需要存储用户提供的一些信息。我尝试使用 .plist 文件来存储信息，我发现: NSString *filePath = @"/Users/Denis/Documents/X
Delphi 属性读/写
在delphi类中声明属性时是否可能有不同类型的结果？示例: 属性月份:字符串读取monthGet(字符串)写入monthSet(整数); 在示例中，我希望在属性(property)月份中，当我:读
delphi - delphi中的文件快速读/写
我正在以二进制形式将文件加载到数组中，这似乎需要一段时间有没有更好更快更有效的方法来做到这一点。我正在使用类似的方法写回文件。 procedure openfile(fname:string); va
c# - 如何使用线程在控制台上同时进行读/写
我想实现一个运行模拟的C#控制台应用程序。另外，我想给用户机会在控制台上按“+”或“-”来加速/减速模拟的速度。有没有办法在编写控制台时读取控制台？我相信我可以为此使用多线程，但是我却不怎么做(我对
rust - 写!引用时宏不会在单独的方法中编译
这是我的代码: use std::fs::File; use std::io::Write; fn main() { let f = File::create("").unwrap();
java - 在哪里以及如何存储文本文件以供读/写
我有一个应用程序可以访问 csv 文本文件中的单词。由于它们通常不会更改，因此我将它们放置在 .jar 文件中，并使用 .getResourceAsStream 调用读取它们。我真的很喜欢这种方法，因
security - 为什么Kubernetes允许在kubelet目录中进行全局读/写？
我使用kubeadm，docker 17.12.1-ce和法兰绒网络安装了Kubernetes 1.13.1集群但是，我发现Kubernetes主服务器上有许多空文件，权限为666，该文件允许任何用
Java - 文件读/写
我的工作区中有一些 java 文件。现在我想编写一个java程序，它可以读取来自不同源的文本文件，一次一个，一行一行，并将这些行插入到工作区中各自的java文件中。文本文件会告诉我将哪个文件插入到哪
filesystems - 文件系统如何处理并发读/写？
用户A要求系统读取文件foo，同时用户B想要将他或她的数据保存到同一个文件中。在文件系统级别如何处理这种情况？最佳答案大多数文件系统(但不是全部)使用锁定来保护对同一文件的并发访问。锁可以是独占的
android - 如何防止黑客在firebase数据库上读/写
我对保护移动应用程序的 firebase 数据库有一些疑问。例如，在反编译Android应用程序后，黑客可以获取firebase api key 然后访问firebase数据库，这是正确的吗？假设
java - 使用java创建不可删除的文件并对其进行读/写
我想让文件从外部不可删除，并希望使用java从程序对该文件进行读/写操作。 S0，我使用以下代码使用java创建了不可删除的文件: Process pcs = Runtime.getRunti
java NIO独立读/写
当 Selector.select() 以阻塞模式等待读/写操作时，是否可以将写消息推送到客户端？如何将选择器从阻塞模式移至写入模式？触发器可以是一个后台线程，用于放置需要写入给定 channel 的
c - 多个子进程在同一管道上读/写
我目前正在学习在 Linux 环境中使用 C 进行套接字编程。作为一个项目，我正在尝试编写一个基本的聊天服务器和客户端。目的是让服务器为每个连接的客户端派生一个进程。我遇到的问题是读取一个 chi

首页

博学

6Ren·AI

商城

python - 如何用pandas读取Spark写的文件？