gpt4 book ai didi

python - 使用 dedupe python 时资源使用率低

转载 作者:太空宇宙 更新时间:2023-11-03 10:54:16 24 4
gpt4 key购买 nike

我需要在大型数据集中查找重复项,因此我正在测试 dedupe python 库。

我知道它被推荐用于小型数据集,所以我认为使用一台好的机器可以提高性能。我有一台 56 GB RAM 的机器,我正在运行类似于 "csv_example" 的测试对于具有 200000 行的数据集。它有效,但内存使用率非常低,因此处理 (CPU)。

似乎在阻塞阶段花费的时间太长了:

INFO:dedupe.blocking:10000, 110.6458142 seconds
INFO:dedupe.blocking:20000, 300.6112282 seconds
INFO:dedupe.blocking:30000, 557.1010122 seconds
INFO:dedupe.blocking:40000, 915.3087222 seconds

任何人都可以帮助我改进使用或告诉我是否有任何库/设置可以使程序使用更多可用资源?

最佳答案

您正在运行哪个版本的重复数据删除?从 1.6.8 开始,它应该可以轻松处理这种大小的记录集。

但是,一般指导是,当您遇到内存问题时,切换到使用数据库进行阻塞,如 postgres例子。

(我是 dedupe 的主要作者)。

关于python - 使用 dedupe python 时资源使用率低,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/44308600/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com