gpt4 book ai didi

python - 如何确保大型 HDF5 中的唯一行

转载 作者:行者123 更新时间:2023-11-28 22:51:44 25 4
gpt4 key购买 nike

我正致力于在 HDF5 表中实现一组相对较大的(5,000,000 条并且还在增加)时间序列数据。我需要一种方法来删除重复项,每天一次,每天“运行”一次。就我目前的数据检索过程而言,在数据检索过程中写入重复项比确保没有重复项要容易得多。

从 pytable 中删除重复项的最佳方法是什么?我所有的阅读都指向我将整个表导入 Pandas ,并获得一个唯一值的数据框,然后通过每次数据运行重新创建表将其写回磁盘。不过,这似乎与 pytables 的观点背道而驰,而且我不知道整个数据集能否有效地装入内存。我应该补充一点,它是定义唯一记录的两列。

没有可重现的代码,但谁能给我 pytables 数据管理建议?

非常感谢...

最佳答案

请参阅此相关问题:finding a duplicate in a hdf5 pytable with 500e6 rows

为什么说这是“反pytables的点”?完全有可能存储重复项。用户对此负责。

您也可以试试这个:merging two tables with millions of rows in python ,其中您使用的合并函数只是 drop_duplicates()

关于python - 如何确保大型 HDF5 中的唯一行,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/21246039/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com