gpt4 book ai didi

algorithm - 大数据集中文本重复检测的高效算法

转载 作者:塔克拉玛干 更新时间:2023-11-03 04:41:51 27 4
gpt4 key购买 nike

我正致力于在大约 500 万个地址的列表中检测重复项,并且想知道是否已就用于此目的的有效算法达成共识。我看过 Gitbub (https://github.com/datamade/dedupe) 上的 Dedupe 库,但根据文档,我不清楚这是否可以很好地扩展到大型应用程序。

顺便说一句,我只是想根据文本相似性来定义重复项 - 已经对地址进行了大量清理。我一直在使用一种使用 Levenshtein 距离的粗略方法,但想知道对于大型数据集是否还有更有效的方法。

谢谢,

最佳答案

重复数据删除应该适用于该大小的数据。

Michael Wick 有一些出色的工作和 Beka Steorts比重复数据删除具有更好的复杂性。

关于algorithm - 大数据集中文本重复检测的高效算法,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/38177496/

27 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com