gpt4 book ai didi

php - 在 MYSQL/PHP 中检查重复文本字段的最佳方法是什么?

转载 作者:可可西里 更新时间:2023-11-01 07:38:03 25 4
gpt4 key购买 nike

我的代码提取了大约 1000 个 HTML 文件,提取了相关信息,然后将该信息存储在 MySQL 文本字段中(因为它通常很长)。我正在寻找一个系统来防止数据库中的重复条目

我的第一个想法是向表中添加一个 HASH 字段(可能是 MD5),在每次运行开始时提取哈希列表并在插入数据库之前检查重复项。

第二个想法是存储文件长度(字节或字符或其他),对其进行索引,并检查重复的文件长度,如果发现重复的长度则再次检查内容。

不知道什么是性能方面的最佳解决方案。也许有更好的方法?

如果有一种有效的方法来检查文件是否 >95% 相似那将是理想的,但我怀疑是否存在?

感谢您的帮助!

顺便说一句,我正在使用 PHP5/Kohana


编辑:

只是有一个检查相似性的想法:我可以计算所有字母数字字符并记录每个字符的出现

例如:17aB... = 1a,7b,10c,27c,...

潜在的问题是字符数的上限(大约 61?)

我认为误报仍然很少见。 . .

好主意/坏主意?

最佳答案

散列的想法可能是最好的。您可能会发生碰撞,但这种情况极为罕见。

将哈希字段作为表的唯一键,并捕获重复的错误代码。或者使用 insert ignoreinsert replace

关于php - 在 MYSQL/PHP 中检查重复文本字段的最佳方法是什么?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/4902478/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com