gpt4 book ai didi

python-2.7 - 将 HDF 文件加载到 Python Dask DataFrame 列表中

转载 作者:行者123 更新时间:2023-12-02 15:34:20 26 4
gpt4 key购买 nike

我有一个 HDF5 文件,我想将其加载到 Dask DataFrame 列表中。我已经使用 Dask pipeline approach 的缩写版本之后的循环进行了设置。 。这是代码:

import pandas as pd
from dask import compute, delayed
import dask.dataframe as dd
import os, h5py

@delayed
def load(d,k):
ddf = dd.read_hdf(os.path.join(d,'Cleaned.h5'), key=k)
return ddf

if __name__ == '__main__':
d = 'C:\Users\User\FileD'
loaded = [load(d,'/DF'+str(i)) for i in range(1,10)]

ddf_list = compute(*loaded)
print(ddf_list[0].head(),ddf_list[0].compute().shape)

我收到此错误消息:

C:\Python27\lib\site-packages\tables\group.py:1187: UserWarning: problems loading leaf ``/DF1/table``::

HDF5 error back trace

File "..\..\hdf5-1.8.18\src\H5Dio.c", line 173, in H5Dread
can't read data
File "..\..\hdf5-1.8.18\src\H5Dio.c", line 543, in H5D__read
can't initialize I/O info
File "..\..\hdf5-1.8.18\src\H5Dchunk.c", line 841, in H5D__chunk_io_init
unable to create file chunk selections
File "..\..\hdf5-1.8.18\src\H5Dchunk.c", line 1330, in H5D__create_chunk_file_map_hyper
can't insert chunk into skip list
File "..\..\hdf5-1.8.18\src\H5SL.c", line 1066, in H5SL_insert
can't create new skip list node
File "..\..\hdf5-1.8.18\src\H5SL.c", line 735, in H5SL_insert_common
can't insert duplicate key

End of HDF5 error back trace

Problems reading the array data.

The leaf will become an ``UnImplemented`` node.
% (self._g_join(childname), exc))

该消息提到了重复的 key 。我迭代了前 9 个文件来测试代码,并且在循环中,我使用每次迭代来组装与 dd.read_hdf 一起使用的不同 key 。 。在所有迭代中,我保持文件名相同 - 只是更改了 key 。

我需要使用dd.concat(list,axis=0,...)为了垂直连接文件的内容。我的方法是先将它们加载到列表中,然后将它们连接起来。

我已经安装了PyTablesh5Py并有Dask版本0.14.3+2 .

与 Pandas 0.20.1 ,我似乎让它发挥作用:

for i in range(1,10):
hdf = pd.HDFStore(os.path.join(d,'Cleaned.h5'),mode='r')
df = hdf.get('/DF{}' .format(i))
print df.shape
hdf.close()

有没有办法可以将此 HDF5 文件加载到 Dask DataFrame 列表中?或者是否有另一种方法将它们垂直连接在一起?

最佳答案

Dask.dataframe 已经是惰性的,因此不需要使用 dask.delayed 来使其更惰性。您只需重复调用 dd.read_hdf 即可:

ddfs = [dd.read_hdf(os.path.join(d,'Cleaned.h5'), key=k)
for k in keys]

ddf = dd.concat(ddfs)

关于python-2.7 - 将 HDF 文件加载到 Python Dask DataFrame 列表中,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/43827604/

26 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com