pandas - HDFStore 术语内存有效方法来检查列表中的成员资格-6ren

pandas - HDFStore 术语内存有效方法来检查列表中的成员资格

转载作者：行者123 更新时间：2023-12-02 21:39:58

25

4

我有一个 pandas HDFStore，我尝试从中进行选择。我想在一个大的 np.array 中选择两个时间戳之间的数据和一个 id。以下代码可以工作，但仅在查询列表中的成员身份时才会占用过多内存。如果我使用日期时间索引和范围，内存占用量会减少 95%。

#start_ts, end_ts are timestamps
#instruments is an array of python objects

not_memory_efficient = adj_data.select("US", [Term("date",">=", start_ts),
                              Term("date", "<=", end_ts),
                              Term("id", "=", instruments)])
memory_efficient = adj_data.select("US", [Term("date",">=", start_ts),
                              Term("date", "<=", end_ts),)

在 HDFStore 中是否有更节省内存的方法来执行此操作？我应该将索引设置为“sec_id”吗？ (我也可以使用 chunksize 选项并自己连接，但这似乎有点麻烦。)

编辑:

hdfstore 是由 pd.HDFStore 创建的，它创建一个数据帧并存储如下内容。我之前犯了一个错误

def write_data(country_data, store_file):
    for country in country_data:
        if len(country_data[country]) == 0:
            continue
        df = pd.concat(country_data[country], ignore_index=True)
        country_data[country] = []
        store_file.append(country, df, format="t")

根据要求，这是该表的 ptdump:https://gist.github.com/MichaelWS/7980846另外，这是 df:https://gist.github.com/MichaelWS/7981451

最佳答案

为了纪念其他用户。

在HDFStore中，如果某些列不是索引，则需要将其指定为data_columns，以便以后查询。

文档是 here

创建框架

In [23]: df = DataFrame(dict(date = pd.date_range('20130101',periods=10), id = list('abcabcabcd'), C = np.random.randn(10)))


In [28]: df
Out[28]: 
          C                date id
0  0.605701 2013-01-01 00:00:00  a
1  0.451346 2013-01-02 00:00:00  b
2  0.479483 2013-01-03 00:00:00  c
3 -0.012589 2013-01-04 00:00:00  a
4 -0.028552 2013-01-05 00:00:00  b
5  0.737100 2013-01-06 00:00:00  c
6 -1.050292 2013-01-07 00:00:00  a
7  0.137444 2013-01-08 00:00:00  b
8 -0.327491 2013-01-09 00:00:00  c
9 -0.660220 2013-01-10 00:00:00  d

[10 rows x 3 columns]

保存到 hdf，不带 data_columns

In [24]: df.to_hdf('test.h5','df',mode='w',format='table')

0.13将报告此错误(0.12将只是默默地忽略)

In [25]: pd.read_hdf('test.h5','df',where='date>20130101 & date<20130105 & id=["b","c"]')
 ValueError: The passed where expression: date>20130101 & date<20130105 & id=["b","c"]
            contains an invalid variable reference
            all of the variable refrences must be a reference to
            an axis (e.g. 'index' or 'columns'), or a data_column
            The currently defined references are: index,columns

将所有列设置为数据列(也可以是特定的列列表)

In [26]: df.to_hdf('test.h5','df',mode='w',format='table',data_columns=True)

In [27]: pd.read_hdf('test.h5','df',where='date>20130101 & date<20130105 & id=["b","c"]')
Out[27]: 
          C                date id
1  0.451346 2013-01-02 00:00:00  b
2  0.479483 2013-01-03 00:00:00  c

[2 rows x 3 columns]

这是文件的 ptdump -av 的表节点:

/df/table (Table(10,)) ''
  description := {
  "index": Int64Col(shape=(), dflt=0, pos=0),
  "C": Float64Col(shape=(), dflt=0.0, pos=1),
  "date": Int64Col(shape=(), dflt=0, pos=2),
  "id": StringCol(itemsize=1, shape=(), dflt='', pos=3)}
  byteorder := 'little'
  chunkshape := (2621,)
  autoindex := True
  colindexes := {
    "date": Index(6, medium, shuffle, zlib(1)).is_csi=False,
    "index": Index(6, medium, shuffle, zlib(1)).is_csi=False,
    "C": Index(6, medium, shuffle, zlib(1)).is_csi=False,
    "id": Index(6, medium, shuffle, zlib(1)).is_csi=False}
  /df/table._v_attrs (AttributeSet), 19 attributes:
   [CLASS := 'TABLE',
    C_dtype := 'float64',
    C_kind := ['C'],
    FIELD_0_FILL := 0,
    FIELD_0_NAME := 'index',
    FIELD_1_FILL := 0.0,
    FIELD_1_NAME := 'C',
    FIELD_2_FILL := 0,
    FIELD_2_NAME := 'date',
    FIELD_3_FILL := '',
    FIELD_3_NAME := 'id',
    NROWS := 10,
    TITLE := '',
    VERSION := '2.7',
    date_dtype := 'datetime64',
    date_kind := ['date'],
    id_dtype := 'string8',
    id_kind := ['id'],
    index_kind := 'integer']

要注意的关键是 data_columns 在“描述”中是分开的，并且它们被设置为索引。

关于pandas - HDFStore 术语内存有效方法来检查列表中的成员资格，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/20598973/

25

4

0

文章推荐： Javascript require() 多次测试文件不会再次创建对象

文章推荐： javascript - 如何检查数组元素是否大于特定值

python - 使用 chunksize 保存到新的 HDFStore 中迭代 HDFStore
我将所有数据都放入了 HDFStore(是的!)，但是如何从中取出数据.. 我在我的 HDFStore 中保存了 6 个数据帧作为 frame_table。这些表格中的每一个看起来如下所示，但长度各不
pandas HDFStore 按日期时间索引选择行
我确定这可能非常简单，但我无法弄清楚如何通过日期时间索引对 Pandas HDFStore 表进行切片以获得特定范围的行。我有一个看起来像这样的表: mdstore = pd.HDFStore(st
pandas - HDFStore 术语内存有效方法来检查列表中的成员资格
我有一个 pandas HDFStore，我尝试从中进行选择。我想在一个大的 np.array 中选择两个时间戳之间的数据和一个 id。以下代码可以工作，但仅在查询列表中的成员身份时才会占用过多内存。
python - HDFStore 获取列名称
我对 pandas' HDFStore 有一些问题速度太慢了，不幸的是我无法从这里的其他问题中找到令人满意的解决方案。情况我有一个很大的 DataFrame，其中大部分包含 float ，有时包含
python - HDFStore 获取列名称
我对 pandas' HDFStore 有一些问题速度太慢了，不幸的是我无法从这里的其他问题中找到令人满意的解决方案。情况我有一个很大的 DataFrame，其中大部分包含 float ，有时包含
python - HDFStore 启动停止不起作用
清楚我做错了什么吗？我正在尝试 pandas HDFStore.select start 和 stop 选项，但没有什么区别。我使用的命令是: import pandas as pd hdf =
python - HDFStore 数据帧中的输出不是系列
我希望将我读入的两个表存储在数据框中。我正在将 h5 文件读入我的代码中: with pd.HDFStore(directory_path) as store: self.df = stor
python - HDFStore:将数据附加到现有表和重新索引与创建新表之间的效率
我在平面文件中有数 TB 的数据(在子集中)，我想使用 Python Pandas/Pytables/H5py 将这些数据转换为 HDF5 以加快查询和搜索速度。我计划使用 to_hdf 之类的方法转
pandas - HDFStore Term 内存检查列表成员资格的有效方法
我有一个 pandas HDFStore，我试图从中进行选择。我想在一个大的 np.array 中选择两个带有 id 的时间戳之间的数据。以下代码有效，但仅在查询列表中的成员资格时占用过多内存。如果我
python - HDFStore select_as_multiple 生成器
问题:如何创建一个允许对 pandas HDFStore 对象中的多个列进行迭代的生成器？我正在尝试为 pandas HDFStore 对象创建一个包装类。我试图实现的功能之一是能够按给定的 blo
python - 如何从 HDFStore 中的框架中选择列
我在具有多索引的 HDFStore 中将frame_table 称为“数据”。在 DataFrame 中，它可能看起来像这样 var1 var2 va
python - 使用 HDFStore 文件的线程和异常安全方式
以下代码片段: HDFStore = pandas.io.pytables.HDFStore lock = threading.RLock() with lock:
python - "Group By"HDFStore 中大数据的多个列
Pandas "Group By" Query on Large Data in HDFStore? 我已经尝试了答案中的示例，只是我希望能够按两列进行分组。基本上，修改代码看起来像 with pd
python - Pandas HDFStore - 从多个表中获取最后一条记录
我通过 Pandas 将大量数据帧导出到一系列 HDFStore 文件。我需要能够根据需要快速提取每个数据帧的最新记录。设置: File path: /data/storage_X100.hdf
python - Pandas HDFStore 表不接受多索引列
这很好用: cols = ['X', 'Y'] ind = [('A', 1), ('B', 2)] ind = pd.MultiIndex.from_tuples(index, names=['fo
python - Pandas HDFStore 和复制到内存
假设我有一个 store = pd.HDFStore('cache/cache.h5') 我有一个存储的 DataFrame store['myDF'] 如果在我的代码中，我这样做: a = stor
python - 使用 HDFStore 压缩数据
我是 pytables 的新手，对存储压缩的 pandas DataFrame 有疑问。我当前的代码是: import pandas # HDF5 file name H5name="C:\\MyDi
python - Pandas HDFStore 警告
我想知道为什么 HDFStore 会在 pandas 中的字符串列上发出警告。我认为它可能是我真实数据库中的 NaN，但在这里尝试它会给我两个列的警告，即使一个没有混合并且只是字符串。使用 .13.
python - 如何减少 HDFStore 的大小开销？
我正在试验不同的 pandas 友好存储方案来存储报价数据。迄今为止最快的(就读取和写入而言)是使用具有 blosc 压缩和“固定”格式的 HDFStore。 store = pd.HDFStore(
python - Pandas HDFStore 从嵌套列中选择
我有以下 DataFrame，它作为名为数据的 frame_table 存储在 HDFStore 对象中: shipmentid qty catid

首页

博学

6Ren·AI

商城

pandas - HDFStore 术语内存有效方法来检查列表中的成员资格