gpt4 book ai didi

dataset - 串联大量HDF5文件

转载 作者:行者123 更新时间:2023-12-04 03:46:15 25 4
gpt4 key购买 nike

我大约有500个HDF5文件,每个文件的大小约为1.5 GB。

每个文件都具有相同的确切结构,即7个复合(int,double,double)数据集和可变数量的样本。

现在,我想通过串联每个数据集来串联所有这些文件,以便最后我有一个750 GB的文件和我的7个数据集。

目前,我正在运行一个h5py脚本,其中:

  • 使用不受限制的最大
  • 的正确数据集创建HDF5文件
  • 依次打开所有文件
  • 检查样本数量(因为它是可变的)
  • 调整全局文件
  • 的大小
  • 附加数据

  • 这显然要花几个小时,
    您对此有何建议?

    我正在集群上工作,因此可以并行使用HDF5,但是我在 C 编程中还不够出色,无法自己实现某些功能,因此我需要一个已经编写的工具。

    最佳答案

    我发现大部分时间都花在调整文件大小上,因为我在每个步骤中都在调整大小,所以现在我首先浏览所有文件并获取它们的长度(它是可变的)。

    然后创建全局h5file,将总长度设置为所有文件的总和。

    仅在此阶段之后,我才用所有小文件中的数据填充h5file。

    现在每个文件大约要花10秒钟,因此应该花不到2个小时的时间,而花更多的时间。

    关于dataset - 串联大量HDF5文件,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/5346589/

    25 4 0
    Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
    广告合作:1813099741@qq.com 6ren.com