python - 在 Pandas 中迭代写入 HDF5 存储

转载作者：IT老高更新时间：2023-10-28 20:29:04

25

4

Pandas有以下示例说明如何在 HDF5 文件中存储 Series、DataFrames 和 Panels:

准备一些数据:

In [1142]: store = HDFStore('store.h5')

In [1143]: index = date_range('1/1/2000', periods=8)

In [1144]: s = Series(randn(5), index=['a', 'b', 'c', 'd', 'e'])

In [1145]: df = DataFrame(randn(8, 3), index=index,
   ......:                columns=['A', 'B', 'C'])
   ......:

In [1146]: wp = Panel(randn(2, 5, 4), items=['Item1', 'Item2'],
   ......:            major_axis=date_range('1/1/2000', periods=5),
   ......:            minor_axis=['A', 'B', 'C', 'D'])
   ......:

将其保存在商店中:

In [1147]: store['s'] = s

In [1148]: store['df'] = df

In [1149]: store['wp'] = wp

检查商店里有什么:

In [1150]: store
Out[1150]: 
<class 'pandas.io.pytables.HDFStore'>
File path: store.h5
/df            frame        (shape->[8,3])  
/s             series       (shape->[5])    
/wp            wide         (shape->[2,5,4])

关闭商店:

In [1151]: store.close()

问题:

在上面的代码中，数据是什么时候真正写入磁盘的？
假设我想将位于 .csv 文件中的数千个大型数据帧添加到单个 .h5 文件中。我需要加载它们并将它们一一添加到 .h5 文件中，因为我无法将它们一次全部存储在内存中，因为它们会占用太多内存. HDF5可以做到这一点吗？正确的做法是什么？
Pandas 文档说明如下:

"These stores are not appendable once written (though you simply remove them and rewrite). Nor are they queryable; they must be retrieved in their entirety."

不可追加也不可查询是什么意思？另外，不应该说一次close而不是written吗？

最佳答案

语句一执行，例如store['df'] = df。 close 只是关闭实际文件(如果进程存在，它将为您关闭，但会打印一条警告消息)
阅读 http://pandas.pydata.org/pandas-docs/dev/io.html#storing-in-table-format 部分
在 .h5 文件中放置大量节点通常不是一个好主意。您可能希望追加并创建较少数量的节点。
您可以逐一遍历您的 .csv 和 store/append 它们。比如:
```
for f in files:
  df = pd.read_csv(f)
  df.to_hdf('file.h5',f,df)
```
将是一种方式(为每个文件创建一个单独的节点)
不可附加 - 一旦你写了它，你只能一次检索它，例如你不能选择一个小节
如果您有一张 table ，那么您可以执行以下操作:
```
pd.read_hdf('my_store.h5','a_table_node',['index>100'])
```
类似于数据库查询，只获取部分数据
因此，存储不可追加，也不可查询，而表既可追加，也不可查询。

关于python - 在 Pandas 中迭代写入 HDF5 存储，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/16637271/

25

4

0

文章推荐： java - SwingUtilities.invokeLater

文章推荐： java - 如何从 Java Android ping 外部 IP

文章推荐： Python 中 Java 的 Mahout 等价物

hdf5 - HDF 是否进行字符串实习？
只是想知道我对组/数据集名称的自由程度如何，或者是否需要使名称简短(因此可读性较差)。这适用于包含许多具有许多重复名称的组和数据集的 HDF5 文件。一些 XML API 做 string inter
Pandas、大数据、HDF 表以及调用函数时的内存使用情况
简短问题当 Pandas 在 HDFStore 上工作时(例如: .mean() 或 .apply() )，它是否将内存中的完整数据作为 DataFrame 加载，还是将记录作为 Serie 进行处
Pandas :同一 HDF 中的大型数据帧？
我有几个不同的相关数据框(如果需要，可以使用 id 加入它们)。但是，我并不总是同时需要它们。由于它们非常大，将它们存储在单独的 HDF 存储中是否有意义？或者当我处理同一文件中的其他帧时，携带“未
python - 更新 HDF 文件中的一个字段
我似乎无法让它发挥作用。所有示例和线程都让人创建新的数据集。我只想更新已创建的数据集中的一个字段。这是我所拥有的: h5_file = h5py.File(event_file_path, "r+"
Java HDF fsDataOutputStream 写入失败创建空文件
我在 hadoop 上写入小文件时遇到一个奇怪的问题。下面是示例程序 public void writeFile(Configuration conf, String message, String
linux - 授予 hdf 删除目录的权限
当我运行 hdf namenode -format 时，它想要删除目录 /home/hadoop/hadooptmpdata/dfs/name/current 但它没有权限执行此操作。如何授予它权限？
python - Pandas Hdf 获取表信息
有没有办法使用 pandas HDF 存储获取 HDF 表的信息？例如在 SQL 中有: SELECT COUNT(*) 我想阅读基本表格大小而不必自己加载表格。最佳答案试试这个: In [4]
python - 以表格式使用 hdf 时内存泄漏？
在 pandas 下，每次我使用表格格式而不是固定格式时，我的内存消耗都会爆炸。 import numpy as np np.random.seed(seed=10) df = pd.DataFram
python - 在 HDF 存储中构建数据
我正在处理大量数据集，每个数据集都是一个 pandas DataFrame，由于它们的大小，我需要从磁盘访问它们。从我读到的内容来看，HDF 似乎是与它们一起工作的好方法，但我对构建数据的最佳方法有点
Azure Blob 存储和 HDF 文件存储
我正在开发云服务器，我需要使用 blob 存储来存储 HDF 文件 ( http://www.hdfgroup.org/HDF5/ )。与文件中的创建、读取、写入和修改数据元素相关的函数来自 HDF
python - Pandas 不修改默认的 hdf 格式
我正在尝试将数据存储为 hdf 格式，并希望将默认数据类型设置为表，以便稍后查询。我正在使用基本代码: import pandas as pd from numpy import random as
python - 加载 HDF 时出现非法指令(核心已转储)
我最近在 Lubuntu 上安装了 Anacondas Python。我正在尝试加载可在 Windows PC 上运行的 HDF 文件: In [14]: import pandas as pd I
python - pandas 内存消耗 hdf 文件分组
我写了下面的脚本，但是我有一个内存消耗的问题，pandas 分配了超过 30 G 的内存，其中数据文件的总和大约是 18 G import pandas as pd import numpy as n
database - HDF 与 NoSQL 解决方案
您好，我看到了一些以 HDF5 格式存储的科学数据，我想知道是否有任何 NoSQl 解决方案可以达到与 HDF5 相同的读/写性能。我的示例的数据使用树结构(/root 然后/root/key 然后
python - 从 hdf 文件中获取列名(标题)
我想知道如何获取 hdf 文件的列名(似乎存储在 hdf header 中)；例如，一个文件可能有名为 [a,b,c,d] 的列，而另一个文件有 [a,b,c] 列，而另一个文件有 [b,e,r,z]
python - 如何从 Pandas HDF 存储中读取 nrows？
我想做什么？ pd.read_csv(... nrows=###) 可以读取文件的前 n 行。我想在使用 pd.read_hdf(...) 时做同样的事情。问题是什么？我对 documentati
python - 如何高效地将数千张高清照片加载到 pandas df 中并转换为 HDF？
我想将数千张动物图像加载到 pandas df 中，添加特征并可能转换为 HDF。我使用 cv2.imread() 尝试了以下方法 import cv2 import os import numpy
apache-kafka - HDF 模式注册表和 Confluence 模式注册表之间的主要区别是什么？
我想知道 HDF 套件中嵌入的 kafka 和 Confluence 套件中嵌入的 kafka 之间的差异，特别是模式注册工具。最佳答案 https://registry-project.readt
apache-kafka - HDF 模式注册表和 Confluence 模式注册表之间的主要区别是什么？
我想知道 HDF 套件中嵌入的 kafka 和 Confluence 套件中嵌入的 kafka 之间的差异，特别是模式注册工具。最佳答案 https://registry-project.readt
写入 hdf 时的 Pandas/Pytable 内存开销
我使用 pandas 和 hdf5 文件来处理大量数据(例如 10GB 或更多)。我想使用表格格式，以便在读取数据时能够有效地查询数据。但是，当我想将数据写入 hdf 存储时(使用 DataFrame

首页

博学

6Ren·AI

商城

python - 在 Pandas 中迭代写入 HDF5 存储

准备一些数据:

将其保存在商店中:

检查商店里有什么:

关闭商店:

问题: