python - 使用双轴 MultiIndexed 将 Pandas DataFrame 存储到 HDF5-6ren

python - 使用双轴 MultiIndexed 将 Pandas DataFrame 存储到 HDF5

转载作者：行者123 更新时间：2023-11-28 18:31:56

26

4

我认为存储具有两个 MultiIndexed 轴的 DataFrame 应该是可能的。但是，我收到以下错误:

In [1]: index = pd.MultiIndex.from_product([['Foo', 'Bar'],['One','Two','Three']])
        column = pd.MultiIndex.from_product([['foo', 'bar'],['one','two','three']])
        df = pd.DataFrame(np.random.rand(6,6), index=index, columns=column)
        df
Out[1]:                 foo                                    bar
                        one          two          three        one          two          three
        Foo     One     0.605352     0.882382     0.472946     0.615619     0.108022     0.389674
                Two     0.746384     0.594509     0.556881     0.457000     0.529793     0.929574
                Three   0.270978     0.956778     0.515201     0.626850     0.852708     0.861962
        Bar     One     0.219994     0.648191     0.677824     0.408439     0.079326     0.414059
                Two     0.186167     0.767103     0.880667     0.205253     0.647471     0.449379
                Three   0.353171     0.249900     0.723791     0.458349     0.977604     0.691188

In [2]: with pd.HDFStore('test.h5', 'w') as store:
            store.append('output', df)
Out[2]: ---------------------------------------------------------------------------
        ValueError                                Traceback (most recent call last)
        <ipython-input-55-87e96c141a7f> in <module>()
              1 with pd.HDFStore('test.h5', 'w') as store:
        ----> 2     store.append('output', df)

        /home/kartik/miniconda3/lib/python3.5/site-packages/pandas/io/pytables.py in append(self, key, value, format, append, columns, dropna, **kwargs)
            917         kwargs = self._validate_format(format, kwargs)
            918         self._write_to_group(key, value, append=append, dropna=dropna,
        --> 919                              **kwargs)
            920 
            921     def append_to_multiple(self, d, value, selector, data_columns=None,

        /home/kartik/miniconda3/lib/python3.5/site-packages/pandas/io/pytables.py in _write_to_group(self, key, value, format, index, append, complib, encoding, **kwargs)
           1262 
           1263         # write the object
        -> 1264         s.write(obj=value, append=append, complib=complib, **kwargs)
           1265 
           1266         if s.is_table and index:

        /home/kartik/miniconda3/lib/python3.5/site-packages/pandas/io/pytables.py in write(self, obj, data_columns, **kwargs)
           4195                 data_columns.insert(0, n)
           4196         return super(AppendableMultiFrameTable, self).write(
        -> 4197             obj=obj, data_columns=data_columns, **kwargs)
           4198 
           4199     def read(self, **kwargs):

        /home/kartik/miniconda3/lib/python3.5/site-packages/pandas/io/pytables.py in write(self, obj, axes, append, complib, complevel, fletcher32, min_itemsize, chunksize, expectedrows, dropna, **kwargs)
           3785         self.create_axes(axes=axes, obj=obj, validate=append,
           3786                          min_itemsize=min_itemsize,
        -> 3787                          **kwargs)
           3788 
           3789         for a in self.axes:

        /home/kartik/miniconda3/lib/python3.5/site-packages/pandas/io/pytables.py in create_axes(self, axes, obj, validate, nan_rep, data_columns, min_itemsize, **kwargs)
           3383             axis, axis_labels = self.non_index_axes[0]
           3384             data_columns = self.validate_data_columns(
        -> 3385                 data_columns, min_itemsize)
           3386             if len(data_columns):
           3387                 mgr = block_obj.reindex_axis(

        /home/kartik/miniconda3/lib/python3.5/site-packages/pandas/io/pytables.py in validate_data_columns(self, data_columns, min_itemsize)
           3246         if info.get('type') == 'MultiIndex' and data_columns:
           3247             raise ValueError("cannot use a multi-index on axis [{0}] with "
        -> 3248                              "data_columns {1}".format(axis, data_columns))
           3249 
           3250         # evaluate the passed data_columns, True == use all columns

        ValueError: cannot use a multi-index on axis [1] with data_columns ['level_1', 'level_0']

像这样存储数据对我来说最有意义。主要是因为我的需求会有很大的不同。对于某些应用程序，我将需要所有行和所有列。对于许多其他人，我只需要所有行和一个父列:假设我需要 foo 下的所有行。我可能还只需要一个父行和一个父列:Foo, foo。

我当然需要所有辅助行和列。

在我的例子中，主要行索引是状态，次要行索引是传感器名称，主要列索引是感测到的不同事物，次要列索引是传感器输出的统计数据。因此，很容易看出，我可能只需要一种类型的所有状态或一种状态的感知数据，或者我可能需要从一种状态或所有状态感知的所有事物。

我正在寻找错误的修复方法或更好的数据存储方式。

最佳答案

如果在存储 df 时强制执行 format='fixed'，您可以保留 MultiIndex:

with pd.HDFStore('test.h5', 'w') as store:
    store.put('output', df, format='fixed')
    print store['output']

              foo                     bar                
              one     two   three     one     two   three
Foo One    0.9626  0.9761  0.4385  0.2976  0.0882  0.7589
    Two    0.7842  0.7563  0.4796  0.5664  0.1511  0.9345
    Three  0.3364  0.4271  0.4107  0.9009  0.5207  0.4082
Bar One    0.9892  0.4595  0.1485  0.1456  0.9935  0.1386
    Two    0.3187  0.7908  0.2947  0.7354  0.5759  0.9102
    Three  0.0499  0.1865  0.8113  0.4815  0.1427  0.3322

但是您将失去一些功能(例如，使用 .append() 方法)。根据您的需要，这可能是问题，也可能不是问题。

关于python - 使用双轴 MultiIndexed 将 Pandas DataFrame 存储到 HDF5，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/36257665/

26

4

0

文章推荐： python - 集成 ODE 后打印数组中的特定值

文章推荐： javascript - MD5 Bruteforce，从 Python 转换为 Javascript 的问题

文章推荐： python - 谷歌 foobar 挑战错误

文章推荐： python - 如何在数据帧上使用 sort_index()？

python - 如何使用 MultiIndex 的相关级别对 MultiIndex DataFrame 进行切片
我有一个包含 4 个级别的 MultiIndex 的 pandas 数据框。我正在尝试为每个 1 级索引选择具有不同 4 级索引的行。例子: In [68]: df = pd.DataFrame({
python - Pandas multiindex dataframe - 从 multiindex 中的一个索引中选择最大值
我有一个数据框，其中包含 Year 和 Month 的多个索引，如下所示 | |Value Year |Month| | 1 | 3 1992 | 2 | 5
python - 如何用另一个的 MultiIndex 对一个 MultiIndex DataFrame 进行切片
我有一个带有 3 级 MultiIndex 的 pandas 数据框。我正在尝试根据对应于两个级别的值列表提取此数据帧的行。我有这样的事情: ix = pd.MultiIndex.from_prod
python - 将具有 multiindex 的 Pandas 数据框除以另一个具有较小 multiindex 的数据框
我想将具有多索引的数据帧中的所有列除以另一个具有多索引的数据帧，更小一级。前两个水平的蛾指数是相同的。并且应该播放第三级。 df_0 = pd.DataFrame( { "col0": [ 1
python - 如何将 Pandas Dataframe MultiIndex 行旋转到 MultiIndex 列中？
我想知道是否有人可以帮助我解决这个问题。如果我有一个简单的数据框: one two three four 0 A 1 a 1 1 A 2 b
python - 如何使用 MultiIndex 索引和 MultiIndex 列对 Pandas DataFrame 进行切片？
我希望创建一个新的 DataFrame，与基于芯片的设备 A 和 B 的结果相对应。以下是我创建 DataFrame 的代码: import numpy as np import pandas as
python - 如何使用 MultiIndex 索引和 MultiIndex 列对 Pandas DataFrame 进行切片？
我希望创建一个新的 DataFrame，与基于芯片的设备 A 和 B 的结果相对应。以下是我创建 DataFrame 的代码: import numpy as np import pandas as
python - pandas:将两个 DataFrame 与排序的 MultiIndex 连接起来，使得结果具有排序的 MultiIndex
请让我知道如何将两个 DataFrame 与排序的 MultiIndexes 连接起来，以便结果具有排序的 MultiIndex。由于两者都是排序的，算法必须根据两个 DataFrame 中的总行数
python - 使用包含新标签的数据附加带有 MultiIndex 的 pandas DataFrame，但保留旧 MultiIndex 的整数位置
基本场景对于推荐服务，我正在针对一组用户-项目交互训练矩阵分解模型 (LightFM)。为了使矩阵分解模型产生最佳结果，我需要将我的用户 ID 和商品 ID 映射到从 0 开始的连续整数 ID 范围
python - 带有 pandas groupby multiindex 的箱线图，用于来自 multiindex 的指定子级别
好的，所以我有一个数据框，其中包含时间序列数据，每列都有一个多行索引。这是数据的样例，它是 csv 格式的。加载数据在这里不是问题。我想要做的是能够创建一个箱线图，其中包含根据多索引特定行中的不同类
python - 使用级别中的唯一值重新索引 MultiIndex
我有这个数据框: df = pd.DataFrame({'NUMBER_1': {('2019-07', 'A'): 4, ('2019-07', 'D'): 2, ('2019-08', 'A'):
pandas Multiindex，仅对一个级别的值进行排序
我有点难以对用于我的一个数据集的列的 pandas MultiIndex 进行排序: MultiIndex(levels=[['Jan', 'Feb', 'Mar', 'Apr', 'May', 'J
pandas Multiindex，仅对一个级别的值进行排序
我有点难以对用于我的一个数据集的列的 pandas MultiIndex 进行排序: MultiIndex(levels=[['Jan', 'Feb', 'Mar', 'Apr', 'May', 'J
python - MultiIndex 来自不规则长度的列表
我有一个列表列表，我想将其制成多索引 Pandas 数据框，然后可以合并到原始 Pandas 数据框。列表的每一行都包含一个观察值，列表中的值由与该观察值匹配的相应行组成。这是我所拥有的一个简单版本
python - 将包含两部分的列转换为 MultiIndex
我有以下 DataFrame(从我无法更改的 CSV 文件中读取): df = pd.DataFrame([['low', 0.5, 123, 0.8, 123],
python - MultiIndex 来自两个索引的唯一值的乘积
我正在创建一个 MultiIndex.from_product()，但它必须是来自两个单独的 MultiIndexes 的唯一值的乘积。我下面的解决方案有效，但我想知道是否有更优雅的解决方案。 fro
python - 如何使用日期索引和多级列进行切片 (MultiIndex)
我有一个很大的pd.DataFrame，a，看起来像: bid TIT IM Equity HELN SE Equity FHZN SE Equity GLEN LN Equity f
python - 将其中一个索引作为元组的 MultiIndex
我创建了一个带有多索引的数据框，其中一个索引是一个元组。我无法使用 .loc 进行索引。这是数据框: a = [['a','a','a','b','b','b','c','c'],[('one',2
python - MultiIndex 数据帧的平均值
我有以下数据框 A B C D E F Algo T X
python - MultiIndex 的问题
我在使用 MultiIndex 和 stack() 时遇到问题。以下示例基于 solution from Calvin Cheung在 StackOvervlow 上。 === multi.csv =

首页

博学

6Ren·AI

商城

python - 使用双轴 MultiIndexed 将 Pandas DataFrame 存储到 HDF5