python - 使用 pandas.to_hdf 快速读取 df 中的指定列-6ren

python - 使用 pandas.to_hdf 快速读取 df 中的指定列

转载作者：太空宇宙更新时间：2023-11-03 14:56:28

26

4

我有一个 2Gb 的数据帧，一次写入，多次读取 df。我想在 pandas 中使用 df，因此我使用了固定格式的 df.read_hdf 和 df.to_hdf，在读写方面效果很好。

但是，df随着列的增加而增长，所以我想改用表格格式，这样我可以在读取数据时选择我需要的列。我认为这会给我带来速度优势，但从测试来看情况似乎并非如此。

这个例子:

import numpy as np
import pandas as pd
df = pd.DataFrame(np.random.randn(10000000,9),columns=list('ABCDEFGHI'))
%time df.to_hdf("temp.h5", "temp", format ="fixed", mode="w")
%time df.to_hdf("temp2.h5", "temp2", format="table", mode="w")

显示固定格式稍快(在我的机器上为 6.8 秒对 5.9 秒)。

然后读取数据(稍作休息以确保文件已完全保存):

%time x = pd.read_hdf("temp.h5", "temp")
%time y = pd.read_hdf("temp2.h5", "temp2")
%time z = pd.read_hdf("temp2.h5", "temp2", columns=list("ABC"))

产量:

Wall time: 420 ms (fixed)   
Wall time: 557 ms (format)   
Wall time: 671 ms (format, specified columns)

我明白固定格式读取数据的速度更快，但为什么具有指定列的 df 比读取完整数据帧慢？与固定格式相比，使用表格格式(带或不带指定列)有什么好处？

当 df 变得更大时，是否可能存在内存优势？

最佳答案

IMO 将 format='table' 与 data_columns=[list_of_indexed_columns] 结合使用的主要优势是能够有条件地(参见 where="where子句” 参数)读取巨大的 HDF5 文件。这样您就可以在阅读时过滤您的数据，并分块处理您的数据以避免内存错误。

您可以尝试将单个列或列组(大多数情况下会一起阅读的列)保存在不同的 HDF 文件中，或者保存在具有不同键的同一文件中。

我还会考虑使用“尖端”技术 - Feather-Format

测试和计时:

import feather

以三种格式写入磁盘:(HDF5 fixed、HDF% table、Feather)

df = pd.DataFrame(np.random.randn(10000000,9),columns=list('ABCDEFGHI'))
df.to_hdf('c:/temp/fixed.h5', 'temp', format='f', mode='w')
df.to_hdf('c:/temp/tab.h5', 'temp', format='t', mode='w')
feather.write_dataframe(df, 'c:/temp/df.feather')

从磁盘读取:

In [122]: %timeit pd.read_hdf(r'C:\Temp\fixed.h5', "temp")
1 loop, best of 3: 409 ms per loop

In [123]: %timeit pd.read_hdf(r'C:\Temp\tab.h5', "temp")
1 loop, best of 3: 558 ms per loop

In [124]: %timeit pd.read_hdf(r'C:\Temp\tab.h5', "temp", columns=list('BDF'))
The slowest run took 4.60 times longer than the fastest. This could mean that an intermediate result is being cached.
1 loop, best of 3: 689 ms per loop

In [125]: %timeit feather.read_dataframe('c:/temp/df.feather')
The slowest run took 6.92 times longer than the fastest. This could mean that an intermediate result is being cached.
1 loop, best of 3: 644 ms per loop

In [126]: %timeit feather.read_dataframe('c:/temp/df.feather', columns=list('BDF'))
1 loop, best of 3: 218 ms per loop  # WINNER !!!

PS如果在使用feather.write_dataframe(...)时遇到如下错误:

FeatherError: Invalid: no support for strided data yet

这里有一个解决方法:

df = df.copy()

在那之后 feather.write_dataframe(df, path) 应该可以正常工作...

关于python - 使用 pandas.to_hdf 快速读取 df 中的指定列，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/42021800/

26

4

0

文章推荐： ssl - 子域的通配符证书和链式证书有什么区别？

文章推荐： c# - 检查似乎忽略了 namespace 命名首选项

文章推荐： ssl - 证书需要是官方的还是自签名的？

文章推荐： python - 在 Ansible 中运行带参数的 Python 脚本

python - Pandas to_hdf 溢出错误
Python新手在这里。我正在尝试使用 to_hdf 将大数据帧保存到带有 lz4 压缩的 HDF 文件中。我使用 Windows 10、Python 3、Pandas 20.2 我收到错误“溢出
python - pandas to_hdf 函数获取非法指令
这似乎是 OS X 10.10 和 docker 特定的错误。当我尝试 import pandas as pd df = pd.DataFrame([[1,2,3], [2,3,4]], column
python - dataframe.to_hdf() 中的参数键是什么意思
DataFrame.to_hdf(path_or_buf, key, **kwargs) pandas官方文档中说key是store中组的标识。但是，这是什么意思？尽管如此，我还是找不到足够的例子。
python-3.x - Pandas to_hdf() 溢出警告
我需要将一个大数据帧保存到 hdf5 文件，所以我使用了: self.feature_concated.to_hdf(self.h5_result_name, key='feature_data',
python - 使用 to_hdf 将 pandas 数据帧保存到磁盘时出现段错误
我正在尝试使用 hdf5 格式将数据帧保存到磁盘。即使是这段简单的代码也会给我“段错误(核心已转储)” import pandas as pd import tables df=pd.DataFram
python - 缺少可选依赖项 'tables' 。在 Pandas to_hdf
以下代码给我错误。 import pandas as pd df = pd.DataFrame({'a' : [1,2,3]}) df.to_hdf('temp.h5', key='df', mode
python - 追加带有 pandas' to_hdf 的行是 H5 文件大小的倍数吗？
我有一个大约 13,000 行 × 5 列的 HDF5，随着时间的推移，这些行通过 DF.to_hdf(Filename, 'df',append=True, format='table') 这是大小
python - 使用 pandas.to_hdf 快速读取 df 中的指定列
我有一个 2Gb 的数据帧，一次写入，多次读取 df。我想在 pandas 中使用 df，因此我使用了固定格式的 df.read_hdf 和 df.to_hdf，在读写方面效果很好。但是，df随着列
python - 尽管有 'to_hdf'，但用 pandas 'index=None' 重复索引
我想将数据存储在 HDFS 文件中，但将新数据附加到该文件会使索引重复。我可以知道如何避免吗？ In [35]: hdf = pd.HDFStore('temp.h5') In [36]: hdf.i
python - Pandas to_hdf() TypeError : object of type 'int' has no len()
我想存储一个 pandas DataFrame，这样当我稍后再次加载它时，我只加载它的某些列而不是整个东西。因此，我试图以 hdf 格式存储 pandas DataFrame。 DataFrame 包
python - pandas，使用 pd.to_hdf 将多个数据集存储在一个 h5 文件中
假设我有两个数据框， import pandas as pd df1 = pd.DataFrame({'col1':[0,2,3,2],'col2':[1,0,0,1]}) df2 = pd.Data
string - 执行 pandas to_hdf 时出现错误消息 "Exception: cannot find the correct atom type"
我想将数据帧 df 保存到 .h5 文件 MainDataFile.h5 : df.to_hdf ("c:/Temp/MainDataFile.h5", "MainData", mode = "w",

首页

博学

6Ren·AI

商城

python - 使用 pandas.to_hdf 快速读取 df 中的指定列