gpt4 book ai didi

hdfs - 使用 PyArrow 从 HDFS 读取 Parquet 文件

转载 作者:行者123 更新时间:2023-12-03 20:30:55 26 4
gpt4 key购买 nike

我知道我可以使用 pyarrow.hdfs.connect() 通过 pyarrow 连接到 HDFS 集群。

我也知道我可以使用 pyarrow.parquet 读取 Parquet 文件的 read_table()
然而,read_table()接受文件路径,而 hdfs.connect()给我一个 HadoopFileSystem实例。

是否可以仅使用 pyarrow(安装了 libhdfs3)来获取驻留在 HDFS 集群中的 Parquet 文件/文件夹?我希望得到的是to_pydict()函数,然后我可以传递数据。

最佳答案

尝试

fs = pa.hdfs.connect(...)
fs.read_parquet('/path/to/hdfs-file', **other_options)

或者
import pyarrow.parquet as pq
with fs.open(path) as f:
pq.read_table(f, **read_options)

我开了 https://issues.apache.org/jira/browse/ARROW-1848关于添加一些关于此的更明确的文档

关于hdfs - 使用 PyArrow 从 HDFS 读取 Parquet 文件,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/47443151/

26 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com