gpt4 book ai didi

python - 将 Numpy 存储为 pickled Pandas、Pickled Numpy 或 HDF5

转载 作者:太空宇宙 更新时间:2023-11-03 10:47:11 24 4
gpt4 key购买 nike

我现在正在处理来自项目信息预处理的 300 个 float 特征。此类项目由 UUID(即字符串)标识。当前文件大小约为 200MB。到目前为止,我已将它们存储为 Pickled numpy 数组。有时我需要将项目的 UUID 映射到 Numpy 行。为此,我使用字典(存储为 json)将 UUID 映射到 numpy 数组中的行。

我很想使用 Pandas 并将该字典替换为 Pandas 索引。我还发现了 HF5 文件格式,但我想知道更多关于何时使用它们的信息。

我使用数组的一部分来提供基于 scikit-Learn 的算法,然后对其余部分执行分类。

最佳答案

存储 pickled numpy 数组确实不是最佳方法。相反,您可以使用,

  • numpy.savez 以二进制格式保存 numpy 数组的字典
  • 在 HDF5 中存储 pandas DataFrame
  • 直接使用PyTables将您的 numpy 数组写入 HDF5。

HDF5 是存储科学数据的首选格式,其中包括

  • 并行读/写能力
  • 动态压缩算法
  • 高效查询
  • 能够处理 RAM 无法容纳的大型数据集。

虽然,选择输出文件格式来存储 200MB 的小数据集并不是那么关键,更多的是为了方便。

关于python - 将 Numpy 存储为 pickled Pandas、Pickled Numpy 或 HDF5,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/29011755/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com