gpt4 book ai didi

python - 使用 Pandas 在 HDF 中存储包含字符串的数据帧时的神秘之处

转载 作者:太空狗 更新时间:2023-10-29 21:40:31 25 4
gpt4 key购买 nike

这里有一些万圣节的 Pandas 和 HDF 令人毛骨悚然:

df = pandas.DataFrame([['a','b'] for i in range(1,1000)])
store = pandas.HDFStore('test.h5')
store['x'] = df
store.close()

然后

ls -l test.h5
-rw-r--r-- 1 arthur arthur 1072080 Oct 26 10:50 test.h5

110 万?有点陡峭,但为什么不呢。这是事情变得非常可怕的地方

store = pandas.HDFStore('test.h5') #open it again
store['x'] = df #do the same thing as before!
store.close()

然后

ls -l test.h5
-rw-r--r-- 1 arthur arthur 2122768 Oct 26 10:52 test.h5

您现在已经进入暮光之城了。不用说,store 运行后是无法区分的,但每次迭代都会使文件更胖一些。

这似乎只有在涉及字符串时才会发生。在我提交错误报告之前,我想知道我是否遗漏了什么...

最佳答案

看来可能是这个原因:http://www.hdfgroup.org/hdf5-quest.html#del

这是 HDF5 的一个大问题,wtf。

关于python - 使用 Pandas 在 HDF 中存储包含字符串的数据帧时的神秘之处,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/13089359/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com