gpt4 book ai didi

python-2.7 - pandas数据帧中大字符串列的高效存储

转载 作者:行者123 更新时间:2023-12-01 11:30:45 25 4
gpt4 key购买 nike

我有一个带有字符串列的 Pandas 数据框,该列的字符串大小高度倾斜。大多数行的字符串长度小于 20,但也有一些行的字符串长度超过 2000。

我使用 pandas.HDFStorage.append 将此数据帧存储在磁盘上并设置 min_itemsize = 4000。但是,这种方法效率非常低,因为 hdf5 文件非常大,而且我们知道其中大部分是空的。

是否可以为此字符串列的行分配不同的大小?即,对字符串较短的行分配较小的 min_itemsize,对字符串较长的行分配较大的 min_itemsize。

最佳答案

使用时 HDFStore要存储字符串,列中字符串的最大长度是该特定列的宽度,这可以自定义,请参阅 here .

有多种选项可用于处理各种情况。压缩有很大帮助。

In [6]: df = DataFrame({'A' : ['too']*10000})

In [7]: df.iloc[-1] = 'A'*4000

In [8]: df.info()
<class 'pandas.core.frame.DataFrame'>
Int64Index: 10000 entries, 0 to 9999
Data columns (total 1 columns):
A 10000 non-null object
dtypes: object(1)
memory usage: 156.2+ KB

这些是固定存储,字符串存储为 object类型,所以它的性能不是特别好;这些存储也不能用于查询/追加。
In [9]: df.to_hdf('test_no_compression_fixed.h5','df',mode='w',format='fixed')

In [10]: df.to_hdf('test_no_compression_table.h5','df',mode='w',format='table')

表存储非常灵活,但强制存储固定大小。
In [11]: df.to_hdf('test_compression_fixed.h5','df',mode='w',format='fixed',complib='blosc')

In [12]: df.to_hdf('test_compression_table.h5','df',mode='w',format='table',complib='blosc')

通常使用分类表示提供运行时和存储效率。
In [13]: df['A'] = df['A'].astype('category') 

In [14]: df.to_hdf('test_categorical_table.h5','df',mode='w',format='table')

In [15]: df.info()
<class 'pandas.core.frame.DataFrame'>
Int64Index: 10000 entries, 0 to 9999
Data columns (total 1 columns):
A 10000 non-null category
dtypes: category(1)
memory usage: 87.9 KB

In [18]: ls -ltr *.h5
-rw-rw-r-- 1162080 Aug 31 06:36 test_no_compression_fixed.h5
-rw-rw-r-- 1088361 Aug 31 06:39 test_compression_fixed.h5
-rw-rw-r-- 40179679 Aug 31 06:36 test_no_compression_table.h5
-rw-rw-r-- 259058 Aug 31 06:39 test_compression_table.h5
-rw-rw-r-- 339281 Aug 31 06:37 test_categorical_table.h5

关于python-2.7 - pandas数据帧中大字符串列的高效存储,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/32298047/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com