gpt4 book ai didi

python - 如何读取Python Pandas本地存储的ORC文件?

转载 作者:行者123 更新时间:2023-12-01 23:48:29 30 4
gpt4 key购买 nike

我可以将 ORC 文件视为类似于 CSV 文件,其中列标题和行标签包含数据吗?如果是这样,我可以以某种方式将其读入一个简单的 pandas 数据框吗?我对 Hadoop 或 Spark 等工具不太熟悉,但是为了在 Python 中查看本地 ORC 文件的内容,是否有必要了解它们?

文件名是someFile.snappy.orc

我可以在网上看到 spark.read.orc('someFile.snappy.orc') 有效,但即使在 import pyspark 之后,它也会抛出错误。

最佳答案

我还没有找到任何好的选择,有一些死项目试图包装java阅读器。但是,pyarrow 确实有一个 ORC 阅读器,不需要您使用 pyspark。虽然有一点限制,但它确实有效。

import pandas as pd
import pyarrow.orc as orc

with open(filename) as file:
data = orc.ORCFile(file)
df = data.read().to_pandas()

关于python - 如何读取Python Pandas本地存储的ORC文件?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/52889647/

30 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com