gpt4 book ai didi

python - 存储和读取大量 3d 数据集的节省空间的方法?

转载 作者:行者123 更新时间:2023-12-02 02:35:24 31 4
gpt4 key购买 nike

<分区>

我正在尝试在时序数据上训练神经网络。我的数据集将包含 360 万个训练示例。每个示例都是一个 30 x 32 的 ndarray(30 天内观察到的 32 个特征)。

我的问题是写入和读取这些数据最节省空间的方法是什么?

本质上它的形状是 (3.6m, 30, 32) 并且 np.save() 看起来很方便但是我不能把这整个东西保存在内存中所以我无法使用 np.save() 真正保存它(或使用 np.load() 加载它)。 CSV 也不起作用,因为我的数据有 3 个维度。

我创建这个东西的计划是分批处理条目并将它们附加到某个文件中,这样我就可以随时保持空闲内存。

最终,我将使用数据文件作为 PyTorch IterableDataset 的输入,因此它必须是可以一次加载一行的文件(如 .txt 文件,但我我希望有一些更好的方法来保存更符合其表格、3 维性质的数据)。任何想法表示赞赏!

31 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com